您当前的位置:首页 > 论文浏览

1. chinaXiv:201711.02009 [pdf]

基于语义相似度的文本聚类研究

毕强; 刘健; 鲍玉来
分类: 图书馆学、情报学 >> 情报学

【目的】为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题,并进一步改善文本聚类质量, 提出基于语义相似度的文本聚类方法。【方法】通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义相似度矩阵, 根据文本语义相似度矩阵进行谱聚类, 将文本聚集为文本簇。【结果】利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法进行实验, 结果表明, 当聚类个数为10 时, 本文算法的准确率最高, 并且Purity 值高于传统聚类算法的Purity 值。【局限】《同义词词林扩展版》中包含的领域术语不完整, 部分相似度计算结果需要手工进行调整。【结论】该方法考虑了词语间语义关系, 充分挖掘文本主体潜在信息, 并且改善了聚类质量, 为文本聚类和推荐提供了一条新途径。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量255下载量201 评论 0

2. chinaXiv:201711.02012 [pdf]

蒙古文音乐领域的语义检索初探

鲍玉来; 毕强
分类: 图书馆学、情报学 >> 情报学

【目的】在蒙古文信息资源急剧增长的背景下, 探索将基于本体的语义检索应用到蒙古文领域, 提高蒙古文信息资源检索效果。【方法】利用本体技术重视推理、互联的优势, 借助语义解析与推理工具Jena 的规则推理引擎, 设计并实现了基于蒙古文音乐领域本体的蒙古文语义检索系统。【结果】相较于关键词匹配检索, 语义检索系统查全率达到95.6%、查准率达到3.2%, 明显高于关键词匹配检索。【局限】仅以蒙古族多声部音乐为研究对象, 实验对象数据有限, 检索具有一定的局限性。【结论】对基于蒙古文领域本体的语义检索进行了完整的研究, 为蒙古文语义网应用研究打下良好的理论和技术基础。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量138下载量98 评论 0

  [1 页/ 2 条记录]