您当前的位置:首页 > 论文浏览

1. chinaXiv:201712.01401 [pdf]

一种基于语义组块特征的改进 Cosine 文本 相似度计算方法*

白如江; 冷伏海; 廖君华
分类: 图书馆学、情报学 >> 情报学

【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米 管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标 注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度 计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注 性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好 的泛化能力和鲁棒性。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量319下载量199 评论 0

2. chinaXiv:201712.01612 [pdf]

一种基于语义组块特征的改进 Cosine 文本 相似度计算方法*

白如江; 冷伏海; 廖君华
分类: 图书馆学、情报学 >> 情报学

【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米 管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标 注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度 计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注 性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好 的泛化能力和鲁棒性。

提交时间: 2017-11-30 来自合作期刊:《数据分析与知识发现》 点击量262下载量165 评论 0

3. chinaXiv:201711.02034 [pdf]

面向情报研究的文本语义挖掘方法述评

赵冬晓; 王效岳; 白如江; 刘自强
分类: 图书馆学、情报学 >> 情报学

【目的】对主要的文本语义挖掘方法及其在情报研究中的应用进行综述分析。【文献范围】集中选择近10年国内外主流的文本语义挖掘方法在情报研究领域的应用以及少数此前的代表性研究和文本语义挖掘方法的进展研究。【方法】分别概括介绍词、句子和篇章粒度的文本语义挖掘方法、算法, 并通过主题演化和技术挖掘领域的实际应用进行方法剖析。【结果】文本语义挖掘方法与传统的情报分析方法相比, 主要弥补了两个缺陷: 侧重于分析结构化的数据, 无法处理多种异构的数据源; 分析停留在统计语法层面, 没有深入到文本的语义信息。【局限】仅对主流的文本语义挖掘方法以及在科学研究领域的应用进行综述分析, 研究不全面。【结论】文本语义挖掘方法弥补了传统情报分析方法的不足, 是情报研究方法的重要发展方向, 随着方法的成熟, 下一步研究重点是外部语义资源的丰富。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量229下载量178 评论 0

  [1 页/ 3 条记录]