分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 为识别出不同社交网络平台中属于同一自然人的账号,提出了一种基于用户关系的跨社交网络用户身份关联方法。首先,设计了基于网络表示学习的用户关系提取模块,将大规模用户关系转换至低维向量空间进行表示;然后,针对异构信息网络改进了传统网络表示学习算法,提出了CSN_LINE算法,实现融合跨社交网络先验关联关系的网络表示;最后,构建了基于多层感知机的用户身份关联模型。实验结果表示,提出的方法与目前先进的方法相比,综合指标F1值和正确率的提高均超过12%,证明了该方法的合理性和有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 作者身份识别一直在公安行业和文检工作中起着重要的作用。现有的作者语言风格建模过程繁琐、文本特征工程没有普适性。针对此问题,在无须专家进行特征建模的情况下,提出CABLSTM中文微博作者身份识别模型,并在公开微博语料集测试该模型准确度。该模型为最大化的提取短文本特征,融合Attention机制于CNN中并去除池化层,通过双向LSTM以获取上下文相关信息,身份识别结果通过Softmax层进行输出。实验结果表明,该模型在进行中文微博作者身份识别任务中与传统机器学习算法以及TextCNN和LSTM算法相对比,在准确率、召回率、F值方面都有一定的提升。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-06-19 合作期刊: 《计算机应用研究》
摘要: 文本相似度的判断和计算是自然语言处理领域中具有重要意义和研究价值的一部分内容。利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,本文提出的方法在准确度上也有一定程度的提升。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 大数据时代背景下,列存储数据库使用场景愈加增多,推动了列存储相关领域的研究进展。为解决现有列存储数据库压缩策略在压缩过程中遇到的数据离散程度大,分类粒度小,配套分类算法缺陷导致的学习成本高,压缩效率难以保证的问题,本文提出了一种基于排序的列区混合压缩策略,首先根据HBase特点设计了一种对各列数据进行排序的方法加强数据紧密度,然后根据数据特点分别使用混级区压缩策略和混级列压缩策略进行压缩策略推荐,在TPC-DS标准数据集上与前人策略进行比较,实验结果显示本文方法在压缩率、压缩/解压时间方面均有优异的表现,从而证明了本文方法的有效性。