您选择的条件: 陈亚瑞
  • 基于 Spark 分布式框架的海量星表数据 时序重构方法研究

    分类: 天文学 提交时间: 2024-03-26 合作期刊: 《天文学进展》

    摘要: 时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark 这类MapReduce 分布式模型在执行过程中分布式集群{节点间的任务}比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流程,每个分布式进程完全针对独立天区的数据进行连续处理,而分块边缘的新增天体导致的其他节点的新增证认任务延时批量追加,并且会根据各进程间的进度不同确定追加方式,保证证认计算没有遗漏,从而在提高并发效率的同时保证算法的精度。此外,对两表间的不同Join 策略从理论和实验两个角度进行了研究并提出了免Join 策略。最后通过基于Spark 分布式框架的高效时序重构系统的设计完成了以上研究的验证。实验表明,与以往研究结果相比,该时序重构算法效率提升明显,为时域天文学中的天文时序数据分析的开展打下了良好的基础。

  • 基于 Spark 分布式框架的海量星表数据时序重构方法研究

    分类: 天文学 提交时间: 2024-03-22 合作期刊: 《天文学进展》

    摘要: 时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark 这类MapReduce 分布式模型在执行过程中分布式集群{节点间的任务}比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流程,每个分布式进程完全针对独立天区的数据进行连续处理,而分块边缘的新增天体导致的其他节点的新增证认任务延时批量追加,并且会根据各进程间的进度不同确定追加方式,保证证认计算没有遗漏,从而在提高并发效率的同时保证算法的精度。此外,对两表间的不同Join 策略从理论和实验两个角度进行了研究并提出了免Join 策略。最后通过基于Spark 分布式框架的高效时序重构系统的设计完成了以上研究的验证。实验表明,与以往研究结果相比,该时序重构算法效率提升明显,为时域天文学中的天文时序数据分析的开展打下了良好的基础。