Current Location:home > Detailed Browse

Article Detail

基于维基百科的多种类型文献自动分类 研究*

Abstracts

【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分 类效果。【方法】在特征扩展之前, 对 TF-IDF 加以改进, 提出并使用一种新的特征选择方法 CDFmax-IDF 获得候 选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关 系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的 LDA 概率主题模 型 wLDA 模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN 和 SVM 三种分类器上实现分 类, 其 marco-F1 和 micro-F1 分别提升 1.6%-2.8%和 1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互 联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结 论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献 的自动分类效果。
Download Comment From cooperative journals:《数据分析与知识发现》 Hits:2994 Downloads:1148
Recommended references: 李湘东,阮 涛,刘 康.(2017).基于维基百科的多种类型文献自动分类 研究*.数据分析与知识发现.[ChinaXiv:201712.01360] (Click&Copy)
Version History
[V1] 2017-12-05 13:51:27 chinaXiv:201712.01360V1 Download
Related Paper

Download

Current Browse

Change Subject Browse

Cross Subject Browse

  • - NO