ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2018
1

按主题分类

计算机科学的集成理论
1

按作者

按机构

辽宁工程技术大学软件学院
1

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 谢南

1. ChinaXiv:201810.00041
下载全文

基于存储改进的分区并行关联规则挖掘算法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-10-11 合作期刊: 《计算机应用研究》

王永贵谢南曲海成

摘要：基于关联规则在大数据挖掘领域正引起广泛关注，算法的重点及难点就是挖掘频繁集。针对现有算法存储结构简单、生成大量冗余的候选集、时间和空间复杂度高，挖掘效率不理想的情况。为了进一步提高关联规则算法挖掘频繁集的速度，优化算法的执行性能，提出基于内存结构改进的关联规则挖掘算法。算法基于Spark分布式框架，分区并行挖掘出频繁集，提出在挖掘过程中利用布隆过滤器进行项目存储，并对事务集和候选集进行精简化操作，进而达到优化挖掘频繁集的速度、节省计算资源的目的。算法在占用较少内存的条件下，相比于YAFIM和MRApriori算法，在挖掘频繁集效率上有明显地提升。算法不但能较好提升挖掘速度，降低了内存的压力，而且具有很好的可扩展性，使得算法可以应用到更大规模的数据集和集群，从而达到优化算法性能的目的。

点击量 1983 下载量 1185 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募志愿者许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心