ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2017
5

按主题分类

情报学
5

按作者

按机构

当前资源共 5条

隐藏摘要

点击量

时间

下载量

您选择的条件: 中国科学院大学北京 100049)

1. ChinaXiv:201712.01406
下载全文

文本相似度计算方法研究综述

分类：图书馆学、情报学 >> 情报学提交时间： 2017-12-05 合作期刊: 《数据分析与知识发现》

陈二静 , 姜恩波

摘要：【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。

点击量 27402 下载量 2911 评论
2. ChinaXiv:201712.01616
下载全文

文本相似度计算方法研究综述

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-30 合作期刊: 《数据分析与知识发现》

陈二静 , 姜恩波

摘要：【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。

点击量 28836 下载量 3967 评论
3. ChinaXiv:201711.01946
下载全文

基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

王子璇乐小虬何远标

摘要：【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集, 通过训练领域词向量计算句子间WMD 距离得到相应语义相似度, 优化TextRank 算法迭代过程, 利用外部特征对所得权值进行调整, 按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据, 以人工标注的结果为基准对本文的算法和传统的TextRank 算法进行对比实验, 初步结果表明该方法的识别效果(F值)比传统TextRank 算法提升约5%。【局限】句子特征提取有待提高, 词向量训练及方法中的相关参数需要做进一步优化。【结论】基于领域词向量, 融合WMD 语义相似度的TextRank 改进算法, 能够较好地甄别科技论文小节内部中心句, 辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。

点击量 3573 下载量 2530 评论
4. ChinaXiv:201711.01192
下载全文

ng-info-chart: 基于自定义HTML标签的交互式可视化组件

分类：图书馆学、情报学 >> 情报学提交时间： 2017-10-11 合作期刊: 《数据分析与知识发现》

陈挺王小梅吕伟民

摘要：【目的】设计并实现基于模型–视图–控制器(MVC)前端AngularJS 框架的可视化组件ng-info-chart。【应用背景】优秀的情报分析平台往往需要使用多个复杂的可视化图谱组合展示分析结果, 需要更有效地构建复杂的、支持大量交互操作的网页端情报分析可视化图谱。【方法】ng-info-chart 集成多种可视化图谱, 使用AngularJS 自定义扩展标签统一封装, 通过自定义HTML 标签直接在页面中调用绘图方法。【结果】ng-info-chart 可视化组件随着研究团队情报分析项目不断深入与完善, 现已集成5 个第三方可视化类库中11 种可视化图谱, 支持IE9+、Firefox 等主流桌面浏览器。【结论】利用可视化组件实现数据异步获取、自动检测数据变化与实时图谱绘制等功能, 极大简化了情报分析系统中复杂可视化图谱的开发工作。

点击量 2554 下载量 1777 评论
5. ChinaXiv:201711.01209
下载全文

领域内中文科技文献中新发现语言描述特征分析*

分类：图书馆学、情报学 >> 情报学提交时间： 2017-10-11 合作期刊: 《数据分析与知识发现》

毛琛瑜乐小虬

摘要：【目的】分析领域内中文科技文献新发现语言描述特征。【方法】语义标注新发现语言描述特征, 通过句式分析、频次分布统计以及共现分析探究其特征规律。【结果】总结得到领域内中文科技文献新发现语言的句型,找出新发现语言的特征搭配。【局限】结果具有领域学科局限性, 需要进一步对比研究。【结论】利用语义标注、频次统计以及共现分析可以有效地发现中文科技文献中新发现语言的描述特征。

点击量 1978 下载量 1120 评论

文本相似度计算方法研究综述

文本相似度计算方法研究综述

基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究

ng-info-chart: 基于自定义HTML标签的交互式可视化组件

领域内中文科技文献中新发现语言描述特征分析*