【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米 管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标 注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度 计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注 性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好 的泛化能力和鲁棒性。 |
Version History | ||||
---|---|---|---|---|
[V1] | 2017-12-05 13:51:26 | chinaXiv:201712.01401V1 | Download |
Related Paper |
---|