• 文本相似度计算方法研究综述

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中 分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相 似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的 分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法 和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发 展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握 和深入了解文本相似度计算方法的研究现状和未来趋势。

  • 文本相似度计算方法研究综述

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中 分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相 似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的 分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法 和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发 展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握 和深入了解文本相似度计算方法的研究现状和未来趋势。

  • 基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集, 通过训练领域词向量计算句子间WMD 距离得到相应语义相似度, 优化TextRank 算法迭代过程, 利用外部特征对所得权值进行调整, 按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据, 以人工标注的结果为基准对本文的算法和传统的TextRank 算法进行对比实验, 初步结果表明该方法的识别效果(F值)比传统TextRank 算法提升约5%。【局限】句子特征提取有待提高, 词向量训练及方法中的相关参数需要做进一步优化。【结论】基于领域词向量, 融合WMD 语义相似度的TextRank 改进算法, 能够较好地甄别科技论文小节内部中心句, 辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。

  • ng-info-chart: 基于自定义HTML标签的交互式可视化组件

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】设计并实现基于模型–视图–控制器(MVC)前端AngularJS 框架的可视化组件ng-info-chart。【应用背景】优秀的情报分析平台往往需要使用多个复杂的可视化图谱组合展示分析结果, 需要更有效地构建复杂的、支持大量交互操作的网页端情报分析可视化图谱。【方法】ng-info-chart 集成多种可视化图谱, 使用AngularJS 自定义扩展标签统一封装, 通过自定义HTML 标签直接在页面中调用绘图方法。【结果】ng-info-chart 可视化组件随着研究团队情报分析项目不断深入与完善, 现已集成5 个第三方可视化类库中11 种可视化图谱, 支持IE9+、Firefox 等主流桌面浏览器。【结论】利用可视化组件实现数据异步获取、自动检测数据变化与实时图谱绘制等功能, 极大简化了情报分析系统中复杂可视化图谱的开发工作。

  • 领域内中文科技文献中新发现语言描述特征分析*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】分析领域内中文科技文献新发现语言描述特征。【方法】语义标注新发现语言描述特征, 通过句式分析、频次分布统计以及共现分析探究其特征规律。【结果】总结得到领域内中文科技文献新发现语言的句型,找出新发现语言的特征搭配。【局限】结果具有领域学科局限性, 需要进一步对比研究。【结论】利用语义标注、频次统计以及共现分析可以有效地发现中文科技文献中新发现语言的描述特征。