分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-03 合作期刊: 《计算机应用研究》
摘要: 针对传统的社交网络异常用户检测算法应用于现实中非平衡数据集时存在召回率低、运行效率低等问题,对社交网络数据集提取用户内容、行为、属性、关系特征,应用梯度增强集成分类器XGBoost算法进行特征选择,建立分类模型,构造非平衡数据集并识别三类垃圾广告发送账号。实验结果表明,该方法与随机森林等传统分类方法相比,对平衡及非平衡数据集进行异常用户检测均实现召回率和F1值的有效提升;选取少量特征同样可达到较高检测水平,证明了方法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 为识别出不同社交网络平台中属于同一自然人的账号,提出了一种基于用户关系的跨社交网络用户身份关联方法。首先,设计了基于网络表示学习的用户关系提取模块,将大规模用户关系转换至低维向量空间进行表示;然后,针对异构信息网络改进了传统网络表示学习算法,提出了CSN_LINE算法,实现融合跨社交网络先验关联关系的网络表示;最后,构建了基于多层感知机的用户身份关联模型。实验结果表示,提出的方法与目前先进的方法相比,综合指标F1值和正确率的提高均超过12%,证明了该方法的合理性和有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 作者身份识别一直在公安行业和文检工作中起着重要的作用。现有的作者语言风格建模过程繁琐、文本特征工程没有普适性。针对此问题,在无须专家进行特征建模的情况下,提出CABLSTM中文微博作者身份识别模型,并在公开微博语料集测试该模型准确度。该模型为最大化的提取短文本特征,融合Attention机制于CNN中并去除池化层,通过双向LSTM以获取上下文相关信息,身份识别结果通过Softmax层进行输出。实验结果表明,该模型在进行中文微博作者身份识别任务中与传统机器学习算法以及TextCNN和LSTM算法相对比,在准确率、召回率、F值方面都有一定的提升。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-09-12 合作期刊: 《计算机应用研究》
摘要: 如何提高特征点检测与匹配结果的精度,更好地优化相机位姿恢复结果,是提高三维重建整体效率的关键因素之一。基于SIFT算法原理,构建了一个全新的算法框架,该算法使用FCN(fully convolutional networks,全卷积神经网络)神经网络和BP(back propagation,反向传播)神经网络,综合考虑图像主目标的语义分割、图像灰度共生矩阵等方面的影响,实现了自适应的特征点检测范围、数量调整,并在特征点匹配阶段利用相机位姿偏移稳定性剔除误匹配,同时采用基于图优化的方法对位姿恢复结果进行非线性优化,得到了更加精确相机位姿。最后与现有的主流算法进行分析比对,实验结果验证了该算法的有效性,提高了特征点检测的场景自适应程度与特征点匹配、位姿恢复的精度,实现了更加高效的三维重建。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-06-19 合作期刊: 《计算机应用研究》
摘要: 文本相似度的判断和计算是自然语言处理领域中具有重要意义和研究价值的一部分内容。利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,本文提出的方法在准确度上也有一定程度的提升。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》
摘要: 同图复制窜改是图像窜改较为常见的一类,基于块匹配检测方法往往存在准确率低、时间复杂度高等问题,为提高准确率并大幅度降低时间复杂度,应用深度学习特征和聚类算法进行检测。首先用稀疏自编码器训练大量样本集找出同图复制图像的内部规律并得到降维的隐藏层权值矩阵,通过权值矩阵获得检测图像的隐藏层特征,即定义的稀疏自编码特征;用K-means算法一次聚类自编码特征去除图像平滑区域,二次聚类纹理特征获得检测结果,若检测结果中含有少量异常块,通过欧氏距离判断和RANSAC(random sample consensus)算法将异常块去除,从而实现窜改区域的检测。实验结果表明,该算法与其他算法比较综合准确率提升14.3%,时间效率提升72%。将深度学习特征与聚类算法结合使用,使得同图复制窜改在时间效率和准确率上皆有所提升。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-17 合作期刊: 《计算机应用研究》
摘要: 如何将用户的海量数据以最小的耗时存储到数据中心,是提高云存储效益、解决其发展瓶颈所需考虑的关键问题。首先证明了云存储环境下资源调度方案的存储最小耗时问题属于一个NPC问题,再针对现有算法对存储调度因素考虑不全面、调度结果易陷入局部最优等问题,提出了一种全新的资源调度算法。该算法首先利用三角模糊数层次分析法全面分析调度影响因素,得到存储节点的判断矩阵,用于构造后续的遗传算法目标函数,再将简单遗传算法从解的编码、交叉变异操作及致死染色体自我改善等角度进行创新,使其适用于云存储环境下的大规模资源调度。最后与OpenStack中的Cinder块存储算法及现有改进算法进行了分析比对,实验结果验证了所提算法的有效性,实现了更加高效的资源调度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 大数据时代背景下,列存储数据库使用场景愈加增多,推动了列存储相关领域的研究进展。为解决现有列存储数据库压缩策略在压缩过程中遇到的数据离散程度大,分类粒度小,配套分类算法缺陷导致的学习成本高,压缩效率难以保证的问题,本文提出了一种基于排序的列区混合压缩策略,首先根据HBase特点设计了一种对各列数据进行排序的方法加强数据紧密度,然后根据数据特点分别使用混级区压缩策略和混级列压缩策略进行压缩策略推荐,在TPC-DS标准数据集上与前人策略进行比较,实验结果显示本文方法在压缩率、压缩/解压时间方面均有优异的表现,从而证明了本文方法的有效性。