分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: D-S证据理论是一种有效处理不确定信息的方法,被广泛应用于各领域中,而D-S合成方法作用的对象是基本概率指派(basic probability assign,BPA),如何生成BPA仍是D-S理论应用中重要且有待解决的首要步骤。针对生成BPA提出一种基于核密度估计KDE(kernel density estimation)的BPA生成方法:训练数据用于构建基于最优化窗宽的核密度估计的数据属性模型;然后利用训练数据的核密度模型计算测试数据的密度—距离—分布值Tri-D(density-distance-distribution),通过嵌套式的方法分配Tri-D值获取测试数据对应的BPA;最后D-S合成BPA得到最终判断,通过分类准确率来判断BPA生成方法的有效性。实验通过在UCI数据集上的与其他方法的分类准确率对比验证了提出方法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》
摘要: 单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-17 合作期刊: 《计算机应用研究》
摘要: 数据表达方法和文本分类的效果密切相关。文本分类中常用的数据表达方法主要包括基于词典的共现频率方法、基于隐性语义空间(LSA/SVD)的方法、基于神经网络语言模型的方法。提出一种利用单词的统计特征创建文本分类中特征空间的表达方法。该方法利用单词的七种常见的统计特征,通过相关性分析选取相对独立的统计特征创建特征空间。该方法能够有效降低文本向量空间的维度,同时降低了语义空间内的计算复杂度。情感分类实验的结果表明,与现有的单词的数据表达方法相比,该方法能够显著提高分类算法的准确率和召回率。