分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-28 合作期刊: 《计算机应用研究》
摘要: 为了优化大规模集群运行MapReduce作业时的通信效率和减少Shuffle数据传输量。首先采用存储局部性换取通信局部性的策略,建立一个分布式协同数据映射模型;其次通过随机抽样和机器学习方法来提取作业数据的局部性特征,实现map计算数据的有效部署;最后,利用软件定义网络的全局灵活控制能力,优选通信链路好的节点并将计算任务映射到该类节点中。实验表明对于中间数据混洗密集类作业有较好的优化效果,通信延迟降低了4.3%~5.8%。该方案能减少Shuffle流量和数据迁移延迟,并且适合各种调度策略和网络拓扑结构。