您选择的条件: 谭光明
  • 面向模拟智能的计算系统

    分类: 统计学 >> 社会统计学 提交时间: 2024-03-27 合作期刊: 《中国科学院院刊》

    摘要: 科学研究中的计算机模拟称为科学模拟(scientific simulation),文章从其狭义和广义层面出发,把科 学模拟分为数值计算(numerical computation)、模拟智能(simulation intelligence) 和科学大脑(science brain) 3 个阶段,并描述了各阶段的特征。目前,科学模拟正在进入模拟智能阶段,即在科学大数据和人工 智能的驱动下,科学模拟正从传统的数值计算逐步转向与人工智能相融合的模拟方式。文章针对支撑模拟智 能阶段的计算系统展开讨论,阐述了其设计指导思想、基本方法和关键技术等问题。

  • 高性能计算机发展与政策

    分类: 其他 >> 综合 提交时间: 2023-03-28 合作期刊: 《中国科学院院刊》

    摘要: 高性能计算技术和产业逐步发展,不断繁荣,从仅服务于国家战略部门对性能巅峰的需求到兼顾市场驱动、应用推广和产业化推进,中国高性能计算翻越了打破封锁、打破垄断和引领创新的“三座大山”,逐步缩小了与国外先进研制水平的差距,并在整机系统设计和关键技术上取得了世界领先的成就。文章分析了超算发展的趋势和曙光机的发展之路,将高性能计算机发展的挑战总结为2点:摩尔定律失效前可持续地构建E级系统,以及后摩尔定律时代超算系统的革命性技术。针对这些挑战,文章进而围绕“面向世界科技前沿,面向国家重大需求,面向国民经济主战场”阐述了关于高性能计算机发展的政策建议。

  • 农业模拟器:用智能技术打通黑土地保护的数据流

    分类: 其他 >> 综合 提交时间: 2023-03-28 合作期刊: 《中国科学院院刊》

    摘要: 信息技术正在对各行各业进行深度渗透。通过海量数据的获取,并在信息空间开展建模和分析,信息技术正在成为信息社会解决现实问题的有效手段。当前,国家正在大力实施黑土地保护工程,针对复杂的系统性保护工程,更需要依靠信息技术的力量开展黑土地使用和保护过程中的问题建模和算法求解,通过模拟和仿真的方法找出最佳的保护途径。文章通过分析全球范围主要黑土地区域保护措施,从智能技术的角度提出构建基于第五范式的农业模拟器设计思想,并给出全要素农业模拟器的组织架构,以及通过智能 OODA(观察—判断—决策—执行)环实现数据流的快速运转与迭代,不断优化黑土地保护的技术手段。最后,给出在黑土地保护示范区建设农业模拟器的思路和架构,提出农业模拟器在黑土地保护过程中开展应用和推广的政策建议。

  • 一种新型高效的算法级容错技术及实现

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2017-03-10

    摘要: 随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点 (checkpoint)方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops) 规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非 停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的 数据,而用冗余节点替换失效节点,使计算能继续进行。终的正确结果可以通过一个线性变换求出。为 了论证方案的有效性,我们结合 MPICH 的容错特性实现了容错的 High Performance Linpack (HPL),并评估 了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。

  • CPU/ATI GPU混合体系结构上DGEMM的性能研究

    分类: 计算机科学 >> 计算机硬件技术 提交时间: 2017-03-10

    摘要: 本文报道了我们在 CPU/ATI GPU 混合体系结构上优化双精度矩阵乘法(DGEMM)的工作。在真 实应用中, CPU 与图形处理器(GPU)之间的数据传输是影响性能的关键因素。由于软件流水可以降低 数据传输开销,我们提出了三种软件流水算法,分别是双缓存(Double Buffering)、数据重用(Data Reuse) 和数据存储优化(Data Placement)。在 AMD 公司的图形处理器(GPU)ATI HD5970 上,优化后 DGEMM 性能达到 758 GFLOP/s,对应效率为 82%,是 ACML-GPU v1.1 性能的两倍。在 Intel Westmere EP 和 ATI HD5970 组成的异构系统上,性能达到 844 GFLOP/s,效率为 80%。我们进一步考察了多个 CPU 和多个 GPU 上 DGEMM 的扩展性,详细分析了体系结构方面的影响因素。分析表明,PCIe 总线和内存总线的竞争是异 构系统上程序性能降低的重要影响因素。

  • 选择最优存储格式实现稀疏矩阵乘法的研究

    分类: 计算机科学 >> 计算机应用技术 提交时间: 2016-11-15

    摘要: 稀疏矩阵向量乘法是科学和工程领域中重要的核心子程序之一,也是稀疏BLAS(Basic Linear AlgebraSubprograms,基本线性代数子程序)库的重要组成。本文提出一个稀疏矩阵向量乘法的自动调优器SMAT。对于一个给定的稀疏矩阵,SMAT 可以选择并返回最优的存储格式。我们使用佛罗里达大学的2316 个稀疏矩阵作为测试集,SMAT 获得性能达到所选格式最好性能96%以上。SMAT 在Intel X5680 平台上的预测准确率为89.34% (单精度)和 86.18%(双精度),在AMD Opteron 6168 平台上准确率达到了85.10%(单精度)和82.09%(双精度)。同时,SMAT 的在线搜索时间在需要调用上百次稀疏矩阵向量乘法的应用中是可以接受的。

  • 综述:可扩展应用与可扩展系统

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2016-11-02

    摘要: 可扩展计算机系统在各个领域得到了越来越广泛的应用,这些应用往往具有可扩展的需求,而这些可扩展应用的特征却有很大差异。过去20 年间,用于可扩展应用的系统平台层出不穷,这些平台的优势也各不相同,评价一类应用与某种系统平台相适应的程度成为用户关注的一个关键问题。本文对可扩展应用及可扩展系统进行了综述与分析,并提出了一些评价应用与系统平台匹配程度的参考因素;同时,本文还对近来业界提出的一些热点新名词进行了解释与分析,比较了它们之间的异同。本文的目的是帮助人们深入理解可扩展应用与可扩展系统的特征,帮助用户选择合适的平台以提高应用的效率和资源的利用率,同时激发科研人员进一步探索适应应用新需求的系统平台技术。

  • 一种新型高效的算法级容错技术及实现

    分类: 计算机科学 >> 计算机软件 提交时间: 2016-06-08

    摘要: 随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点(checkpoint)方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops)规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的数据,而用冗余节点替换失效节点,使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为了论证方案的有效性,我们结合MPICH 的容错特性实现了容错的High Performance Linpack (HPL),并评估了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。

  • CPU/ATI GPU 混合体系结构上DGEMM 的性能研究

    分类: 计算机科学 >> 计算机软件 提交时间: 2016-06-08

    摘要: 本文报道了我们在CPU/ATI GPU 混合体系结构上优化双精度矩阵乘法(DGEMM)的工作。在真实应用中, CPU 与图形处理器(GPU)之间的数据传输是影响性能的关键因素。由于软件流水可以降低数据传输开销,我们提出了三种软件流水算法,分别是双缓存(Double Buffering)、数据重用(Data Reuse)和数据存储优化(Data Placement)。在AMD 公司的图形处理器(GPU)ATI HD5970 上,优化后DGEMM性能达到758 GFLOP/s,对应效率为82%,是ACML-GPU v1.1 性能的两倍。在Intel Westmere EP 和ATIHD5970 组成的异构系统上,性能达到844 GFLOP/s,效率为80%。我们进一步考察了多个CPU 和多个GPU上DGEMM 的扩展性,详细分析了体系结构方面的影响因素。分析表明,PCIe 总线和内存总线的竞争是异构系统上程序性能降低的重要影响因素。

  • 一种低开销软硬件混合的细粒度内存

    分类: 计算机科学 >> 计算机应用技术 提交时间: 2016-05-04

    摘要: 内存行为分析是进行内存系统调度、体系结构及应用访存性能等优化的基础,而细粒度的内存行为 分析能够标识内存系统性能瓶颈的源头,并为优化提供丰富的语义信息。常用的内存行为分析手段包括插 桩、模拟器、硬件计数器等,但它们分别存在开销大,准确性不足,无法提供详细信息等问题。本文提出 了一种软硬件混合的细粒度内存行为分析方法,能够对程序的完整访存序列进行函数级和对象级分析。硬 件方面使用HMTT 卡监控系统访存请求,软件方面采用二进制插桩方式来获取函数入口、出口信息,通过 导出内核页表及对象内存分配信息来得到每个对象的内存空间信息。实验结果表明,本文提出的方法能够 以较低的开销,准确地获取真实系统上的函数及对象级的访存序列。