• 基于 MongoDB 的海量天文星表数据的快速时序重构研究

    分类: 天文学 >> 天文学 提交时间: 2023-06-07 合作期刊: 《天文学进展》

    摘要: 天文数据的爆发性增长,导致运用传统科学计算方法生成天文时序数据时效率不高,直接影响时域天文学的科学产出。为了解决这一问题,文章提出了减少距离计算的同源星表快速证认方法及基于 MongoDB 的应用方案,重点从原始数据的访存优化,证认计算速度的提高等方面寻求新的改进方案,以解决大规模天文星表的批量时序重构的效率问题。实验结果表明,与基于传统多波段交叉证认算法和关系型数据库的方法相比,该方法可以更有效地提高时序数据的生成效率,为时域天文学时代频繁采样望远镜大规模星表数据的时序重构和光变曲线的生成提供了新思路。

  • 基于 Spark 分布式框架的海量星表数据 时序重构方法研究

    分类: 天文学 提交时间: 2024-03-26 合作期刊: 《天文学进展》

    摘要: 时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark 这类MapReduce 分布式模型在执行过程中分布式集群{节点间的任务}比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流程,每个分布式进程完全针对独立天区的数据进行连续处理,而分块边缘的新增天体导致的其他节点的新增证认任务延时批量追加,并且会根据各进程间的进度不同确定追加方式,保证证认计算没有遗漏,从而在提高并发效率的同时保证算法的精度。此外,对两表间的不同Join 策略从理论和实验两个角度进行了研究并提出了免Join 策略。最后通过基于Spark 分布式框架的高效时序重构系统的设计完成了以上研究的验证。实验表明,与以往研究结果相比,该时序重构算法效率提升明显,为时域天文学中的天文时序数据分析的开展打下了良好的基础。

  • 基于 Spark 分布式框架的海量星表数据时序重构方法研究

    分类: 天文学 提交时间: 2024-03-22 合作期刊: 《天文学进展》

    摘要: 时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark 这类MapReduce 分布式模型在执行过程中分布式集群{节点间的任务}比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流程,每个分布式进程完全针对独立天区的数据进行连续处理,而分块边缘的新增天体导致的其他节点的新增证认任务延时批量追加,并且会根据各进程间的进度不同确定追加方式,保证证认计算没有遗漏,从而在提高并发效率的同时保证算法的精度。此外,对两表间的不同Join 策略从理论和实验两个角度进行了研究并提出了免Join 策略。最后通过基于Spark 分布式框架的高效时序重构系统的设计完成了以上研究的验证。实验表明,与以往研究结果相比,该时序重构算法效率提升明显,为时域天文学中的天文时序数据分析的开展打下了良好的基础。