您当前的位置:首页 > 论文浏览

1. chinaXiv:201901.00183 [pdf]

NLOF:基于网格过滤的两阶段离群点检测算法

王立英; 石磊; 伊静; 宋天霞
分类: 计算机科学 >> 计算机科学的集成理论

离群点检测旨在有效识别数据集中的异常数据,挖掘出数据集中有意义的潜在信息。现有的离群度检测算法因没有对原数据进行处理导致计算时间复杂度过高,检测效果不理想。提出一种基于网格过滤的两阶段离群点检测算法NLOF:首先使用网格过滤对原数据进行初步筛选,将密度小于特定阈值的数据放入候选异常子集中;然后为了进一步优化基于密度的算法,基于k邻域,根据邻域中数据点的个数与邻域所组成圆的面积之比,作为数据点密度计算的依据,进行离群点检测以获得更准确的离群点集。在多种公开数据集上进行实验,实验表明,该方法可以在异常检测中取得良好的性能,同时降低了算法的时间复杂度。

提交时间: 2019-01-28 来自合作期刊:《计算机应用研究》 点击量30下载量20 评论 0

2. chinaXiv:201812.00103 [pdf]

基于CRT机制混合神经网络的特定目标情感分析

孟威; 尉永清; 刘文锋
分类: 计算机科学 >> 计算机科学的集成理论

特定目标情感分析的目的是从不同目标词语的角度来预测文本的情感,关键是为给定的目标分配适当的情感词。当句子中出现多个情感词描述多个目标情感的情况时,可能会导致情感词和目标之间的不匹配。由此提出了一个CRT机制混合神经网络来用于特定目标情感分析,模型使用CNN层从经过BiLSTM变换后的单词表示中提取特征,通过CRT组件生成单词的特定目标表示并保存来自BiLSTM层的原始上下文信息。在三种公开数据集上进行了实验,实验结果表明,该模型在特定目标情感分析任务中较之前的情感分析模型在准确率和稳定性上有着明显的提升,证明CRT机制能很好地整合CNN和LSTM的优势,这对于特定目标情感分析任务具有重要的意义。

提交时间: 2018-12-13 来自合作期刊:《计算机应用研究》 点击量71下载量47 评论 0

3. chinaXiv:201812.00116 [pdf]

基于卷积神经网络和贝叶斯分类器的句子分类模型

李文宽; 刘培玉; 朱振方; 刘文锋
分类: 计算机科学 >> 计算机科学的集成理论

传统句子分类模型存在特征提取过程复杂且分类准确率较低等不足,利用当下流行的基于深度学习模型的卷积神经网络在特征提取上的优势,结合传统句子分类方法提出一种基于卷积神经网络和贝叶斯分类器的句子分类模型。该模型首先利用卷积神经网络提取文本特征,其次利用主成分分析法对文本特征进行降维,最后利用贝叶斯分类器进行句子分类。实验结果表明在康奈尔大学公开的影评数据集和斯坦福大学情感分类数据集上,所提出的方法优于只使用深度学习的模型或传统句子分类模型。

提交时间: 2018-12-13 来自合作期刊:《计算机应用研究》 点击量89下载量54 评论 0

4. chinaXiv:201808.00054 [pdf]

联合特征选择和潜在子空间回归的跨媒体检索

刘芸; 于治楼; 付强
分类: 计算机科学 >> 计算机科学的集成理论

由于多模式数据的大量存在,跨模式检索近来备受关注,并且通常涉及两个基本问题:相关性度量和特征选择。目前的大多数方法都只关注解决第一个问题:将多模态数据投影到一个公共子空间中,测量不同数据模式之间的相似性然后进行检索。针对第二个问题,为了可以从特征空间中选择相关和判别特征,对投影矩阵施加21范数惩罚项。同时,采用谱回归方法学习所有模态数据共享的最优潜在空间正交约束。然后构建一个图模型将多模态数据投影到潜在空间中,保留了模态内的相似性关系。在两个数据集进行了广泛的实验,跨模态检索任务的实验结果表明显示了本文提出的方法的有效性。

提交时间: 2018-08-13 来自合作期刊:《计算机应用研究》 点击量102下载量69 评论 0

5. chinaXiv:201806.00121 [pdf]

COPD多维特征提取与集成诊断方法

房有丽; 王红; 狄瑞彤; 王露潼宋永强
分类: 计算机科学 >> 计算机科学的集成理论

慢性阻塞性肺疾病(COPD)是一种可导致患者呼吸功能逐渐下降的慢性肺部疾病,需要借助于大数据分析及算法帮助医生对疾病更加准确地进行诊断。目前对COPD的研究存在局限性,一方面,研究成果只利用数据分析单一特征对疾病的影响,另一方面研究成果仅通过简单算法模型对病例数据验证,因此提出了COPD多维特征提取与集成诊断方法。首先,提出最大依赖度MDF-RS算法,提取多维特征的最优组合;其次,提出DSA-SVM集成模型,构建分类器进行诊断及预测;最后,利用交叉验证方法验证准确率等各项性能指标。通过实验对比验证了该算法的有效性。

提交时间: 2018-06-19 来自合作期刊:《计算机应用研究》 点击量127下载量80 评论 0

6. chinaXiv:201805.00060 [pdf]

基于字典学习的跨媒体检索技术

戚玉丹; 张化祥; 刘一鹤
分类: 计算机科学 >> 计算机科学的集成理论

在研究跨媒体信息检索时,对于不同模态数据的异构性提出了挑战,针对如何更好的克服异构问题以提高多模态数据之间的检索精度,提出了一种基于字典学习的新跨媒体检索技术。首先,通过字典学习方法学习两个不同模态数据之间的稀疏系数,然后,通过特征映射方案由两个不同的投影矩阵分别把它们投入共同的特征子空间,最后,通过标签对齐同一类来增强不同模态之间的相关性。实验结果表明,与传统的同构子空间学习方法相比,基于字典的算法分类性能优越,该实验方法在两个数据集上优于几种最先进的方法。

提交时间: 2018-05-02 来自合作期刊:《计算机应用研究》 点击量102下载量70 评论 0

7. chinaXiv:201805.00070 [pdf]

基于词语相关性的对话系统话题分割

何天文; 王红; 刘海燕
分类: 计算机科学 >> 计算机科学的集成理论

针对开放域对话系统中存在的话题转移问题以及对话内容中存在大量短文本的情况,传统的基于相似性的处理方法存在很大的局限性,创新地提出通过对话系统中前后句子的相关性判断分割点,实现话题分割,并比较了相关性与相似性在计算中对句子信息利用的不同之处。提出一种相关性计算方法,并将该方法用于话题分割,最终实现话题转移检测。通过与现有方法的对比实验,表明了提出的相关性计算方法的有效性。

提交时间: 2018-05-02 来自合作期刊:《计算机应用研究》 点击量132下载量81 评论 0

8. chinaXiv:201804.02053 [pdf]

基于TextRank的自动摘要优化算法

李娜娜; 刘培玉; 刘文锋; 刘伟童
分类: 计算机科学 >> 计算机科学的集成理论

在对中文文本进行摘要提取时,传统的TextRank算法只考虑节点间的相似性,忽略了文本的其他重要信息。首先,针对中文单文档,在现有研究的基础上,使用TextRank算法,一方面考虑句子间的相似性,另一方面,使TextRank算法与文本的整体结构信息、句子的上下文信息等相结合,如文档句子或者段落的物理位置、特征句子、核心句子等有可能提升权重的句子,来生成文本的摘要候选句群;然后对得到的摘要候选句群做冗余处理,以除去候选句群中相似度较高的句子,得到最终的文本摘要。最后通过实验验证,该算法能够提高生成摘要的准确性,表明了该算法的有效性。

提交时间: 2018-04-19 来自合作期刊:《计算机应用研究》 点击量320下载量203 评论 0

9. chinaXiv:201804.02058 [pdf]

基于互信息和邻接熵的新词发现算法

刘伟童; 刘培玉; 刘文锋; 李娜娜
分类: 计算机科学 >> 计算机科学的集成理论

如何快速高效地识别新词是自然语言处理中一项非常重要的任务,针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题,最后通过实验验证了该算法的有效性。

提交时间: 2018-04-19 来自合作期刊:《计算机应用研究》 点击量326下载量217 评论 0

  [1 页/ 9 条记录]