ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2018
1

按主题分类

计算机科学的集成理论
1

按作者

按机构

当前资源共 1条

隐藏摘要

点击量

时间

1. ChinaXiv:201811.00170
下载全文

基于关键词相似度的短文本分类方法研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-11-29 合作期刊: 《计算机应用研究》

张振豪过弋韩美琪王吉祥

摘要：在传统的文本分类中，文本向量空间矩阵存在“维数灾难”和极度稀疏等问题，而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究，提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型；然后通过TextRank获得每一类文本的关键词，在关键词集合中进行去重操作作为特征集合。对于任意特征，通过词向量模型计算短文本中每个词与该特征的相似度，选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机SVM作为分类器训练算法。实验基于中文新闻标题数据集，与传统的短文本分类方法相比，分类效果平均提升约6%，从而验证了该框架的有效性。

点击量 1616 下载量 985 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募预印本评审专家许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心