ChinaXiv.org 中国科学院科技论文预发布平台

核心期刊

JST

数据分析与知识发现 [Data Analysis and Knowledge Discovery]

基本信息

ISSN：2096-3467
出版时间：-
出版者：中国科学院文献情报中心
期刊网址：点此访问
语种： Chinese;
出版格式：

出版信息

主题：图书馆学、情报学;
总访问量：1554384次

按提交时间

2024
3
2017
297

面向低资源语言机器翻译的平行语料句对齐评分

关键词: 机器翻译; 低资源语言; 平行语料; 句对齐评分;

李林霞陈波周毛克赵小兵

提交时间： 2024-06-05

摘要：目的量化低资源语言平行语料的句对齐评分，获取高质量平行语料，提升机器翻译的性能。方法提出基于神经网络的无监督句嵌入双语平行语料句对齐评分方法 NeuroAlign：将平行句对嵌入至同一向量空间，计算平行语料中给定候选句对的对齐评分，然后根据评分排序过滤分值较低的平行句对，获得高质量的低资源语言双语平行语料。结果 BUCC2018 平行文本挖掘任务中 F1 值可提升 0.5-0.8；CCMT2021 低资源语言神经机器翻译中 BLEU 值可提升 0.1-10.9；句对齐评分可接近人工评分。局限限于低资源双语平行语料的资源匮乏，未在藏汉、维汉、蒙汉以外的语言对上进行探索研究。结论可以有效应用至低资源语言平行语料的句对齐评分，从数据源端提升语料质量，进而改进机器翻译的效果。

点击量 4484 下载量 1444 评论 0

下载查看预印本
基于大模型知识蒸馏的专利技术功效词自动抽取方法研究：以车联网V2X领域为例

关键词: 技术功效词抽取; 知识蒸馏; 微调大模型; 语义相似矩阵;

DOI：10.12074/202402.00235V1

王奎芳吕璐成孙文君王翼虎

提交时间： 2024-03-01

摘要：目的本文旨在提高专利技术功效自动化提取的准确度。方法使用ChatGPT作为教师模型（Teacher-model），ChatGLM3作为学生模型(Student-model)，通过知识蒸馏，将ChatGPT生成的训练数据微调ChatGLM3，得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词，并采用功效词抽取模型从技术功效语段中抽取功效词。结果微调后的多个技术词抽取模型和功效词抽取模型相较于ChatGPT，在抽取技术词和功效词时呈现准确率高、召回率低的特点，第一权利要求的ChatGLM3微调模型的准确率和F1值最高，分别为0.734和0.724。功效词抽取模型抽取的功效词的准确率为0.649，大于商业工具标注功效词的准确率0.53。局限本研究的技术领域和专利语言单一，验证数据量偏小，数据清洗规则还有待于继续优化。结论本研究方案通过知识蒸馏操作，提升了大语言模型自动化抽取技术功效的准确性。同时，本研究能够支持从专利文本中挖掘前沿创新技术、热点技术，支撑更高质量的智能化专利分析。

点击量 4055 下载量 1769 评论 0

下载查看预印本
面向多维应用的替代计量学“场景-问题-方法”研究框架

关键词: 替代计量学; 应用场景; 研究问题; 关键方法;

DOI：10.12074/T202402.00170V1

张洋谢迎花梁以安余厚强

提交时间： 2024-02-08

摘要：【目的】替代计量分析已得到广泛认可和使用，但国内较多将其局限于科学评价视域，忽视了替代计量学广阔的应用场景。本文通过构建替代计量学“场景-问题-方法”研究框架，旨在丰富替代计量分析的研究设计，促进替代计量学健康可持续发展。【方法】通过借鉴科学学、信息计量学中的成熟框架，结合替代计量学的特征，构建起研究框架。【结果】替代计量学的应用场景可分为评价指标、科学传播、知识扩散三种。从研究问题视角构建替代计量分析的方向，面向评价指标场景提出指标应用、影响因素和指标构建三个方向的研究问题；面向科学传播场景提出传播策略、传播结构、传播趋势、科学与社会互动四个方向的研究问题；面向知识扩散场景提出扩散策略、扩散结构和扩散效果三个方向的研究问题。最后，结合因果推断、网络分析和机器学习三种关键分析方法，阐述每种研究问题相应的研究设计思路，对替代计量学的未来发展进行了展望。【结论】本研究提出的替代计量学框架有利于促进替代计量学进入内涵式发展阶段。

点击量 2756 下载量 1301 评论 0

下载查看预印本
基于数据立方体挖掘疾病新关联*

关键词: 疾病; 基因; 药物; 数据立方体; 关联规则 ; 关联网络 ;

DOI：10.12074/201712.01355V1

魏星胡德华易敏寒朱启贞

提交时间： 2017-12-05

摘要：【目的】在海量文献中, 挖掘并预测生物医学实体之间的新关联, 构建关联网络。【方法】提出一种基于数据立方体的新方法挖掘疾病–基因–药物间关联, 以糖尿病为例, 构建关联网络, 并使用关联规则量化实体关联程度。【结果】由糖尿病相关疾病(14 种)、基因(23 种)和药物(24 种)构建三个 1-D 方体、三个 2-D 方体及其关联网络和一个 3-D 方体关联网络, 共计存在 411 种关联, 同时得到 8 个关联子网。【局限】数据预处理存在主观性, 可能会对挖掘结果产生影响。【结论】算法性能优于其他同类算法, 能够为糖尿病精准医疗提供更好的新研究思路。

点击量 43753 下载量 7015 评论 0

下载查看预印本
基于 CSpace 的科技信息可配置化自动监测功能设计与实现*

关键词: Cspace; 机构知识库; 科技信息; 自动监测; 信息采集 ;

DOI：10.12074/201712.01356V1

王思丽刘巍祝忠明吴志强

提交时间： 2017-12-05

摘要：【目的】实现对多源异构科技信息的长期监测、自动采集发布与存储管理, 以满足专题领域科技研究的需求。【方法】结合 CSpace 的应用扩展需求, 设计开发了基于 CSpace 的可配置化的科技信息自动监测功能, 着重研究和解决了多源异构科技信息采集内容规则的可配置化实现、与 CSpace 交互的自动采集发布接口的可配置化实现等关键技术问题, 并以海洋科技信息的自动监测采集为例进行应用研究。【结果】能够实现对多源异构科技信息的自动监测采集, 为科技平台建设提供良好支持。【局限】采集内容规则配置过程比较复杂; 不支持对一些需要登录的复杂站点的自动监测。【结论】该功能方法较大程度上扩展了 CSpace 的数据采集集成功能, 且具有一定的通用性、可配置性与松耦合性, 可应用于多个科技信息监测领域。

点击量 11998 下载量 2937 评论 0

下载查看预印本
关联数据中 owl:sameAs 网络分析*

关键词: owl:sameAs; 数据集互联; 网络 ;

DOI：10.12074/201712.01357V1

贾君枝李晓

提交时间： 2017-12-05

摘要：【目的】调研 owl:sameAs 连接在真实数据网络中的配置和应用情况。【方法】从 BTC 2014 数据集中抽取部分数据, 应用统计学方法对样本数据构成的 sameAs 网络进行结构分析、域名分析和实例类型分析。【结果】数据分析结果表明, 真实数据网络中 sameAs 连接较稀疏, 等同实体网络中大多数实体只建立了单个连接。【局限】样本数据数量有限, 未能更全面地深入分析。【结论】该研究分析可以为关联数据中基于实例水平的数据集成、本体对齐、知识发现以及跨数据集查询等提供参考。

点击量 9910 下载量 2078 评论 0

下载查看预印本
基于任务展示示能性的众筹项目视频分析 ——以众筹网为例

关键词: 众筹 ; 视频资源 ; 任务展示示能性; 内容特征; 形式特征; 内容分析 ;

DOI：10.12074/201712.01358V1

吴聪赵宇翔朱庆华

提交时间： 2017-12-05

摘要：【目的】从发展现状、内容特征、形式特征三个方面分析我国不同类型众筹项目视频使用现状及其特点。【方法】基于任务展示示能性理论, 构建视频内容特征和形式特征的二维视角(发起方视角和参与方视角)分析框架, 并以众筹网为例进行实证探讨。【结果】研究表明: (1)视频资源能够显著促进众筹进度和成功率, 吸引用户关注和支持, 但我国众筹项目介绍中使用视频的比例仍然较低; (2)不同类型的众筹项目其视频内容特征和形式特征都有显著的相似性和差异性特点。【局限】分析框架粒度较大, 有待进一步扩展和细化。本研究选择综合性众筹平台众筹网为研究对象, 样本具有一定的局限性。【结论】本文分析我国众筹项目中视频的现状和特点, 可以为众筹平台的优化设计以及众筹项目的成功实施提供参考和建议。

点击量 42273 下载量 7056 评论 0

下载查看预印本
基于无标度网络模型和传染病模型的舆论演化仿真研究*

关键词: 无标度网络 ; 传染病模型; 舆情传播 ;

DOI：10.12074/201712.01359V1

韩普王鹏

提交时间： 2017-12-05

摘要：【目的】精确地呈现网络社交中信息传播状态和传播过程, 从而更深入理解网络信息的传播机制。【方法】在无标度网络模型和传染病模型基础上, 加入可调整参数, 构建改进的网络信息传播模型, 并在 NetLogo 平台上进行舆情传播演化仿真。【结果】仿真实验结果表明: 在信息传播过程中, 不断变化的传播速率能够更好地描述网络信息传播; 在集群度大的网络中对信息传播进行引导和控制的最佳时机是在传播速率增大阶段。【局限】模型对人群分类仍然不够精细。【结论】模型不仅能够在设定条件下模拟不同类型信息的传播过程, 还可以为网络舆情监测、引导和控制提供支持。

点击量 10297 下载量 2688 评论 0

下载查看预印本
基于维基百科的多种类型文献自动分类研究*

关键词: 多种类型文献; 文本分类; 特征选择 ; 特征扩展; 维基百科;

DOI：10.12074/201712.01360V1

李湘东阮涛刘康

提交时间： 2017-12-05

摘要：【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分类效果。【方法】在特征扩展之前, 对 TF-IDF 加以改进, 提出并使用一种新的特征选择方法 CDFmax-IDF 获得候选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的 LDA 概率主题模型 wLDA 模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN 和 SVM 三种分类器上实现分类, 其 marco-F1 和 micro-F1 分别提升 1.6%-2.8%和 1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献的自动分类效果。

点击量 10658 下载量 2954 评论 0

下载查看预印本
一种基于主流特征观点对的评论可信性排序研究*

关键词: 在线商品评论; 特征观点对 ; 可信度;

DOI：10.12074/201712.01361V1

王忠群吴东胜蒋胜皇苏斌

提交时间： 2017-12-05

摘要：【目的】从大量在线商品评论中筛选出可信的评论辅助消费者制定购买决策。【方法】提出一种基于大数据思维的主流特征观点对的概念, 依据特征观点对在不同用户评论中的认可程度, 建立评论可信性排序模型。【结果】淘宝、天猫和京东平台的商品评论的主流特征观点对是稳定的; 与已有模型相比, 使用本文模型排序过的用户评论包含的产品特征范围更广, 评论有用性提升 7.5%, 更能够反映评论的真实情况。【局限】仅从评论包含的特征观点对考虑评论可信性, 而未考虑评论的具体语义情况。【结论】包含主流特征观点对数量越多的评论, 其可信度则越大。

点击量 8979 下载量 1826 评论 0

下载查看预印本
中文科技论文图表摘要设计研究* ——以图书情报领域为例

关键词: 图表标引 ; 中文摘要; 李克特量表 ;

DOI：10.12074/201712.01362V1

包楚晗贾丹萍何琳马晓雯

提交时间： 2017-12-05

摘要：【目的】探究与设计基于图书情报领域、中文科技论文图表摘要构建的结构, 并制定构建规则。【方法】通过调研的方法, 结合人工标注结果及图情领域中文科技论文、图表的特征, 设计摘要框架并规定构建规则, 最终设计评测系统, 基于 SPSS 统计结果分析揭示该摘要系统的表现。【结果】本研究构建的图表摘要在图片信息理解程度、效率、确信度等维度上的表现均优于现有图片–文本组合模式。【局限】图片信息覆盖率有待提高、未考虑清楚图表类型所带来的差异、未完全实施自动化标引。【结论】依据本研究设计的中文科技论文图表摘要构建结构与规则所形成的图表摘要能有效提高用户对文献主要内容的准确理解度。

点击量 8987 下载量 2001 评论 0

下载查看预印本
基于情感及影响力的微博用户群体特征分析 ——以 A 手机为例

关键词: 群体特征分析; 情感分析; 用户影响力识别; 客户价值矩阵 ;

DOI：10.12074/201712.01363V1

何跃尹小佳朱超

提交时间： 2017-12-05

摘要：【目的】帮助企业实现精准营销, 准确识别企业用户的群体特征。【方法】对微博文本进行情感分析, 通过 Ward 聚类将微博发表者聚类成 9 类群体, 并对微博用户进行影响力识别, 从情感和影响力两个维度对各个用户群体进行分析, 利用一种改进的客户价值矩阵方法辨别不同用户群体的特征。【结果】实验结果表明: 9 类用户群体对 A 手机品牌情感倾向存在较大的差异。A 手机更受喜欢追赶时髦的女性群体以及从事 IT 行业的用户青睐, 并且该群体影响力较大, 能更有效地影响消费者购买该手机。【局限】在进行用户影响力识别时, 仅考虑常用指标, 未考虑用户微博被转发之后的级联影响力以及其他影响指标。【结论】本文方法能够较为准确地识别企业用户的群体特征, 为企业实现精准营销提供帮助。

点击量 32266 下载量 2921 评论 0

下载查看预印本
基于属性特征的评论文本情感极性量化分析*

关键词: 评论文本; 属性因子; 评论模式; 情感极性 ;

DOI：10.12074/201712.01364V1

李慧柴亚青

提交时间： 2017-12-05

摘要：【目的】从评论对象的属性特征出发解决情感极性量化问题。【方法】将在线评论文本分解构建三层评论体系, 即评论对象–对象属性–评论描述, 从属性层级抽取属性词集和对应的评论集, 考虑评论对象属性特征的不同影响, 引入属性因子, 并对 TFIDF 进行改进用以计算属性因子; 结合评论模式和评论语境提出基于属性特征的评论情感量化分析算法并采用 Python 语言予以实现。【结果】相较于传统机器学习分类算法(NB、SVM)、属性因子设置为等权重时, 本文算法在评论文本情感分类准确性方面有显著提高。【局限】评论集领域选择方面具有局限性, 量化算法在系数设定方面存在主观性。【结论】本文算法能有效解决情感极性量化问题, 进一步提高了情感分类准确性。

点击量 9960 下载量 2655 评论 0

下载查看预印本
CSpace 机构知识库影音资源支持能力扩展研究与实践*

关键词: 机构知识库 ; Cspace; 影音 ; FFMPEG ; 功能扩展;

DOI：10.12074/201712.01365V1

吴志强祝忠明姚晓娜王思丽

提交时间： 2017-12-05

摘要：【目的】提出机构知识库影音支持能力扩展方向, 实现 CSpace 机构知识库影音支持能力扩展。【应用背景】影音知识资源在机构产出中所占比例不断增长, 扩展机构知识库影音支持能力可更好地揭示、发现影音知识资源, 挖掘和利用其学术研究价值和潜力。【方法】分析用户的应用需求和国内外机构知识库影音支持服务的发展趋势, 构建机构知识库影音资源支持功能扩展框架, 选择其中的关键技术和方法搭建实验平台, 探索将其应用于 CSpace 系统的可行性。【结果】实现了影音格式转换、视频场景分析和具有场景导航功能的播放器。【结论】影音转码稳定性和效率较高, 其他影音支持功能离实用还存在一定距离, 将影音格式转换技术应用于 CSpace 机构知识库系统中, 能够扩展机构知识库的影音支持服务。

点击量 7979 下载量 2196 评论 0

下载查看预印本
基于权重的 Apriori 算法在文本统计特征提取方法中的应用*

关键词: 特征提取; Apriori 算法 ; TF-IDF ; 方差选择 ;

DOI：10.12074/201712.01366V1

李昌兵庞崇鹏李美平

提交时间： 2017-12-05

摘要：【目的】解决在海量客户评论信息中抽取产品特征时噪声大的问题。【方法】运用 TF-IDF 和方差选择的统计方法在众多初步提取出来的特征中进行选择, 设置阈值后将各自提取出来的特征取交进行过滤, 得到产品特征集合, 根据基于矩阵和权重改进的 Apriori 算法产生频繁项集, 设定不同阈值得到最优特征集合, 实现对用户评论中产品特征的自动提取。【结果】以手机评论文本为例, 从中抽取手机类的产品特征, 根据人工标注的 183 个特征和算法识别出来的特征, 查准率 P 为 72.44%, 查全率 R 为 77.59%, 综合值 F 为 74.93%。【局限】查准率偏低, 存在人工标注特征错误的情况。【结论】实验结果表明, 在用统计方法和改进后的 Apriori 算法进行特征提取时可以提高各性能指标。

点击量 6054 下载量 1601 评论 0

下载查看预印本
基于动态情感主题模型的在线评论分析*

关键词: SSTM ; DSTM; 参数估计; 情感; 在线评论;

DOI：10.12074/201712.01367V1

李慧胡云凤

提交时间： 2017-12-05

摘要：【目的】对在线评论进行分析, 揭示评论文本主题的内容和情感分布变化规律。【方法】使用融入先验信息的 SSTM 模型获得评论文档的情感分布, 以文档、文档情感分布和词项为可视变量, 提出 DSTM 模型, 并估算情感主题分布和主题词项分布。【结果】将采集的评论数据集按时间片划分进行建模, 实验得到主题的内容和情感随时间的变化趋势。【局限】未考虑不同主题之间的关联关系, 建模结果可能存在一定误差。【结论】融合时间外部特征的 DSTM 模型, 能够有效地对在线评论进行主题演化分析。

点击量 9528 下载量 4113 评论 0

下载查看预印本
基于微博的意见领袖网情感特征分析* ——以“非法疫苗”事件为例

关键词: 微博; 意见领袖网; 情感分析; 时差相关分析; 两步聚类法 ;

DOI：10.12074/201712.01368V1

何跃朱灿

提交时间： 2017-12-05

摘要：【目的】识别意见领袖, 从而研究分析意见领袖网在微博中的作用。【方法】利用两步聚类的方法识别意见领袖, 通过“关注”关系构建意见领袖之间的网络矩阵; 通过对各类用户情感进行分析, 研究意见领袖网在微博中的作用。【结果】研究结果表明: 总体用户的情感主要以消极情感为主, 并且意见领袖网的情感会对普通用户的情感产生影响。【局限】仅针对单个事件进行研究, 并且识别意见领袖时仅采用两步聚类方法。【结论】明星与大 V 类意见领袖网的积极情感变化对普通用户的积极情感变化影响最大。

点击量 6706 下载量 1538 评论 0

下载查看预印本
基于突显词博文聚类的官微事件检测方法*

关键词: 官方微博; 相关词 ; 突显词 ; 官微事件; Word2Vec ;

DOI：10.12074/201712.01369V1

高永兵杨贵朋张娣马占飞

提交时间： 2017-12-05

摘要：【目的】针对官方微博数据存在大量不相关信息的问题, 过滤博文进而检测事件。【方法】利用 Word2Vec 机器学习模型训练官方微博记录集, 并将博文影响力、词基础权重以及官微相关性相结合, 提出官方微博突显词检测方法, 计算突显词博文的相似度, 利用层次聚类算法对突显词博文聚类后选取合适的突显词描述事件, 从而实现事件检测。【结果】实验结果表明, 与TF-IDF 和TextRank 算法相比较, 本文的突显词算法在准确率(63.5%)、召回率(85.5%)和F 值(73.0%)方面表现更好。【局限】官方微博历史记录太少, 初始的训练会存在数据冷启动问题。【结论】本文方法可以在官方微博博文中有效检测官方微博事件。

点击量 6606 下载量 1638 评论 0

下载查看预印本
基于矩阵分解学习的科学合作网络社区发现研究*

关键词: 科学网络; 文献共著网络; 社区发现; 非负矩阵分解; 贝叶斯方法 ;

DOI：10.12074/201712.01370V1

施晓华卢宏涛

提交时间： 2017-12-05

摘要：【目的】在科学合作网络的发展及主要社区发现方法的基础上, 提出发现合作网络社区信息的方法。【方法】以情报领域部分相关期刊 2012 年–2016 年发表论文的共著网络为实验数据, 基于贝叶斯对称非负矩阵分解方法, 结合自动相关确定稀疏压缩原理, 实现社区数量的自动获取, 并在分解过程中应用对称矩阵分解原理。【结果】通过与现有方法的比较与分析, 本文方法得到较好的实验结果。【局限】网络数据获取中未引入学者甄别的优化方法。【结论】本文提出的方法能有效解决合作网络社区发现需求。

点击量 7697 下载量 2398 评论 0

下载查看预印本
基于链接分析法对国内网络直播平台综合影响力的评价研究*

关键词: 链接分析; 网络直播平台; 灰色关联分析; 影响力评价 ;

DOI：10.12074/201712.01371V1

史昱天朱庆华赵宇翔（2）: 陈晓威

提交时间： 2017-12-05

摘要：【目的】探究如何利用链接分析法科学合理地对网络直播平台综合影响力做出客观评价。【方法】借助 Google 和 Alexa 工具收集国内 20 家知名网络直播平台的相关链接数据, 使用改进指标权重计算方法的灰色关联分析法, 对这 20 家网站的综合影响力进行评价。【结果】获得网络直播平台影响力的综合排名, 并依据此分析国内网络直播平台特征及现状。【局限】能获取全面数据的网络直播平台数量较少, 故选取样本数量有限。【结论】中国当前网络直播平台的整体水平还不高, 本文从链接角度出发, 提出进一步提升平台影响力的方法策略

点击量 10703 下载量 2977 评论 0

下载查看预印本