基于关键词相似度的短文本分类方法研究

作者： 张振豪 ¹ 过弋 ^1,2,3 韩美琪 ¹ 王吉祥 ¹
作者单位：

1. 华东理工大学信息科学与工程学院

2. 石河子大学信息科学与技术学院

3. 大数据流通与交易技术国家工程实验室——商业智能与可视化技术研究中心
提交时间：2018-11-29 10:39:29

摘要: 在传统的文本分类中，文本向量空间矩阵存在“维数灾难”和极度稀疏等问题，而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究，提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型；然后通过TextRank获得每一类文本的关键词，在关键词集合中进行去重操作作为特征集合。对于任意特征，通过词向量模型计算短文本中每个词与该特征的相似度，选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机SVM作为分类器训练算法。实验基于中文新闻标题数据集，与传统的短文本分类方法相比，分类效果平均提升约6%，从而验证了该框架的有效性。

词向量特征选择短文本分类特征权重

期刊： 计算机应用研究
分类： 计算机科学 >> 计算机科学的集成理论
引用： ChinaXiv:201811.00170 (或此版本 ChinaXiv:201811.00170V1)
DOI:10.12074/201811.00170V1
CSTR:32003.36.ChinaXiv.201811.00170.V1
推荐引用方式： 张振豪,过弋,韩美琪,王吉祥.(2018).基于关键词相似度的短文本分类方法研究.计算机应用研究.[ChinaXiv:201811.00170] (点此复制)

版本历史

[V1]

2018-11-29 10:39:29

ChinaXiv:201811.00170V1

下载全文

相关论文推荐

1. Turing’s thinking machine and ’t Hooft’s principle of superposition of states	2024-05-14
2. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
3. 引导大语言模型生成计算机可解析内容	2024-04-21
4. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
5. 大模型与标准文献知识库的融合应用探索	2024-04-10
6. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
7. 引导大语言模型生成计算机可解析内容	2024-04-07
8. 基于 Python 中 MeCab 库对日语文章进行文本分析处理实现	2024-04-04
9. 一种基于能量-信息转换的智能测度	2024-03-30
10. 基于大语言模型的中庸思维对心理健康的影响机制研究——道德中心性的中介作用	2024-03-23


公开评论匿名评论仅发给作者