分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: 针对大数据聚类算法计算效率与聚类性能较低的问题,提出了一种基于改进人工蜂群算法与MapReduce的大数据聚类算法。将灰狼优化算法与人工蜂群算法结合,同时提高人工蜂群算法的搜索能力与开发能力。该策略能够有效地提高聚类处理的性能。采用混沌映射与反向学习作为ABC种群的初始化策略,提高搜索的解质量。将聚类算法基于Hadoop的MapReduce编程模型实现,通过最小化类内距离的平方之和,实现对大数据的聚类处理。实验结果表明,该算法有效地提高了大数据集的聚类质量,同时加快了聚类速度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》
摘要: 针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1% 。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-09-12 合作期刊: 《计算机应用研究》
摘要: 针对泛化会造成数据信息损失量较大,且这缺陷会随数据维度变大而越明显的问题,提出一种基于局部划分的匿名算法。在确保k-匿名和l-匿名的前提下,基于敏感属性栏值约束和记录间距离将数据表横向分成若干个桶,然后对每个桶基于属性间的关联纵向分成多栏,最后对同一桶中各栏中的数据进行随机重排。实验结果表明,在处理高维数据时,与LGAA-CP算法相比,信息损失量减少了47%到183%,关联关系保留率提高了24%~118%。与Slicing算法相比,信息损失量相差在1.5%之内,关联关系保留率提高了8.9%到22.8%。通过分析,该算法在同时确保高维数据的隐私保护能力和数据可用性方面是有效的。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 为净化网络环境,需要对网络信息进行审查。针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法(SPGR)、字符串的简称识别算法(SNR)和基于KMP的汉字拆分识别算法(WS-KMP),有效提高了敏感词审查的准确率和效率。实验结果表明,该方法在识别中文敏感词变形体的时候有较高的查全率和查准率。