ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2017
2

按主题分类

情报学
2

按作者

姜恩波
2
陈二静 ,
2

按机构

当前资源共 2条

隐藏摘要

点击量

时间

下载量

您选择的条件: 陈二静 ,

1. ChinaXiv:201712.01406
下载全文

文本相似度计算方法研究综述

分类：图书馆学、情报学 >> 情报学提交时间： 2017-12-05 合作期刊: 《数据分析与知识发现》

陈二静 , 姜恩波

摘要：【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。

点击量 27467 下载量 2937 评论
2. ChinaXiv:201712.01616
下载全文

文本相似度计算方法研究综述

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-30 合作期刊: 《数据分析与知识发现》

陈二静 , 姜恩波

摘要：【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。

点击量 28932 下载量 4011 评论

文本相似度计算方法研究综述

文本相似度计算方法研究综述