ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2018
1

按主题分类

计算机科学的集成理论
1

按作者

按机构

南昌大学信息工程学院
1

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 段隆振

1. ChinaXiv:201812.00114
下载全文

基于Spark的改进K-means算法的并行实现

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-12-13 合作期刊: 《计算机应用研究》

杜佳颖段隆振段文影卜秋瑾

摘要：针对K-means聚类算法存在的不足，提出了改进K-means来提高算法的性能，利用简化后的轮廓系数作为评估标准衡量K-means算法中k值，采用K-means++完成K-means算法初始中心点的选择。设置好k值以及初始中心点后使用形态学相似距离作为相似度测量标准将数据点归属到距离最近的中心点形成的簇中，最后计算平均轮廓系数确定合适的k值，并在Spark上实现算法并行化。通过对四个标准数据集在准确性，运行时间和加速比三个方面的实验表明，改进后的K-means算法相对于传统的K-means算法和SKDK-means算法不仅提高了聚类划分质量，缩短了计算时间，而且在多节点的集群环境下表现出良好的并行性能。实验结果分析出提出的改进算法能有效提高算法执行效率和并行计算能力。

点击量 1175 下载量 655 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募志愿者许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心