您选择的条件: 陈二静 ,
  • 文本相似度计算方法研究综述

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中 分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相 似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的 分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法 和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发 展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握 和深入了解文本相似度计算方法的研究现状和未来趋势。

  • 文本相似度计算方法研究综述

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中 分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相 似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的 分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法 和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发 展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握 和深入了解文本相似度计算方法的研究现状和未来趋势。