ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2018
2

按主题分类

计算机科学的集成理论
2

按作者

按机构

山东建筑大学计算机科学与技术学院
2

当前资源共 2条

隐藏摘要

点击量

时间

下载量

1. ChinaXiv:201805.00395
下载全文

单词统计特性在情感词自动抽取和商品评论分类中的作用

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-18 合作期刊: 《计算机应用研究》

韩彤晖杨东强马宏伟

摘要：单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响，分析了八种常见的统计特征，通过情感词抽取和商品评论分类，研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明，通过结合统计特征与词性，情感词提取的准确率能够达到76.4%，显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明，与传统的基于单词的文本情感分类相比，基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型，替代基于单词构造文本向量空间模型的方法，能够降低文本向量的维度，具有隐形语义空间(LSA/SVD)的压缩效果，在保证分类结果准确率的前提下有效降低了算法的复杂度，能够替代传统的向量空间模型。

点击量 1489 下载量 854 评论
2. ChinaXiv:201804.02157
下载全文

一种利用情感词统计信息构造文本特征表示的方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-04-17 合作期刊: 《计算机应用研究》

韩彤晖杨东强马宏伟

摘要：数据表达方法和文本分类的效果密切相关。文本分类中常用的数据表达方法主要包括基于词典的共现频率方法、基于隐性语义空间(LSA/SVD)的方法、基于神经网络语言模型的方法。提出一种利用单词的统计特征创建文本分类中特征空间的表达方法。该方法利用单词的七种常见的统计特征，通过相关性分析选取相对独立的统计特征创建特征空间。该方法能够有效降低文本向量空间的维度，同时降低了语义空间内的计算复杂度。情感分类实验的结果表明，与现有的单词的数据表达方法相比，该方法能够显著提高分类算法的准确率和召回率。

点击量 1822 下载量 1208 评论

单词统计特性在情感词自动抽取和商品评论分类中的作用

一种利用情感词统计信息构造文本特征表示的方法