分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》
摘要: 单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-17 合作期刊: 《计算机应用研究》
摘要: 数据表达方法和文本分类的效果密切相关。文本分类中常用的数据表达方法主要包括基于词典的共现频率方法、基于隐性语义空间(LSA/SVD)的方法、基于神经网络语言模型的方法。提出一种利用单词的统计特征创建文本分类中特征空间的表达方法。该方法利用单词的七种常见的统计特征,通过相关性分析选取相对独立的统计特征创建特征空间。该方法能够有效降低文本向量空间的维度,同时降低了语义空间内的计算复杂度。情感分类实验的结果表明,与现有的单词的数据表达方法相比,该方法能够显著提高分类算法的准确率和召回率。