分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: D-S证据理论是一种有效处理不确定信息的方法,被广泛应用于各领域中,而D-S合成方法作用的对象是基本概率指派(basic probability assign,BPA),如何生成BPA仍是D-S理论应用中重要且有待解决的首要步骤。针对生成BPA提出一种基于核密度估计KDE(kernel density estimation)的BPA生成方法:训练数据用于构建基于最优化窗宽的核密度估计的数据属性模型;然后利用训练数据的核密度模型计算测试数据的密度—距离—分布值Tri-D(density-distance-distribution),通过嵌套式的方法分配Tri-D值获取测试数据对应的BPA;最后D-S合成BPA得到最终判断,通过分类准确率来判断BPA生成方法的有效性。实验通过在UCI数据集上的与其他方法的分类准确率对比验证了提出方法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-28 合作期刊: 《计算机应用研究》
摘要: 离群点检测旨在有效识别数据集中的异常数据,挖掘出数据集中有意义的潜在信息。现有的离群度检测算法因没有对原数据进行处理导致计算时间复杂度过高,检测效果不理想。提出一种基于网格过滤的两阶段离群点检测算法NLOF:首先使用网格过滤对原数据进行初步筛选,将密度小于特定阈值的数据放入候选异常子集中;然后为了进一步优化基于密度的算法,基于k邻域,根据邻域中数据点的个数与邻域所组成圆的面积之比,作为数据点密度计算的依据,进行离群点检测以获得更准确的离群点集。在多种公开数据集上进行实验,实验表明,该方法可以在异常检测中取得良好的性能,同时降低了算法的时间复杂度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 特定目标情感分析的目的是从不同目标词语的角度来预测文本的情感,关键是为给定的目标分配适当的情感词。当句子中出现多个情感词描述多个目标情感的情况时,可能会导致情感词和目标之间的不匹配。由此提出了一个CRT机制混合神经网络来用于特定目标情感分析,模型使用CNN层从经过BiLSTM变换后的单词表示中提取特征,通过CRT组件生成单词的特定目标表示并保存来自BiLSTM层的原始上下文信息。在三种公开数据集上进行了实验,实验结果表明,该模型在特定目标情感分析任务中较之前的情感分析模型在准确率和稳定性上有着明显的提升,证明CRT机制能很好地整合CNN和LSTM的优势,这对于特定目标情感分析任务具有重要的意义。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 传统句子分类模型存在特征提取过程复杂且分类准确率较低等不足,利用当下流行的基于深度学习模型的卷积神经网络在特征提取上的优势,结合传统句子分类方法提出一种基于卷积神经网络和贝叶斯分类器的句子分类模型。该模型首先利用卷积神经网络提取文本特征,其次利用主成分分析法对文本特征进行降维,最后利用贝叶斯分类器进行句子分类。实验结果表明在康奈尔大学公开的影评数据集和斯坦福大学情感分类数据集上,所提出的方法优于只使用深度学习的模型或传统句子分类模型。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 在对中文文本进行摘要提取时,传统的TextRank算法只考虑节点间的相似性,忽略了文本的其他重要信息。首先,针对中文单文档,在现有研究的基础上,使用TextRank算法,一方面考虑句子间的相似性,另一方面,使TextRank算法与文本的整体结构信息、句子的上下文信息等相结合,如文档句子或者段落的物理位置、特征句子、核心句子等有可能提升权重的句子,来生成文本的摘要候选句群;然后对得到的摘要候选句群做冗余处理,以除去候选句群中相似度较高的句子,得到最终的文本摘要。最后通过实验验证,该算法能够提高生成摘要的准确性,表明了该算法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 如何快速高效地识别新词是自然语言处理中一项非常重要的任务,针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题,最后通过实验验证了该算法的有效性。