分类: 计算机科学 >> 计算机硬件技术 提交时间: 2017-03-10
摘要: 本文报道了我们在 CPU/ATI GPU 混合体系结构上优化双精度矩阵乘法(DGEMM)的工作。在真 实应用中, CPU 与图形处理器(GPU)之间的数据传输是影响性能的关键因素。由于软件流水可以降低 数据传输开销,我们提出了三种软件流水算法,分别是双缓存(Double Buffering)、数据重用(Data Reuse) 和数据存储优化(Data Placement)。在 AMD 公司的图形处理器(GPU)ATI HD5970 上,优化后 DGEMM 性能达到 758 GFLOP/s,对应效率为 82%,是 ACML-GPU v1.1 性能的两倍。在 Intel Westmere EP 和 ATI HD5970 组成的异构系统上,性能达到 844 GFLOP/s,效率为 80%。我们进一步考察了多个 CPU 和多个 GPU 上 DGEMM 的扩展性,详细分析了体系结构方面的影响因素。分析表明,PCIe 总线和内存总线的竞争是异 构系统上程序性能降低的重要影响因素。
分类: 计算机科学 >> 计算机硬件技术 提交时间: 2017-03-10
摘要: 深度数据包检测是数据包处理关键技术之一,即采用特征匹配算法,将每个数据包内容与一组预定义的特征进行匹配。随着网络带宽的迅猛增长以及特征规则日益增多,研究者提出了基于硬件的特征匹配算法,即采用FPGA、ASIC 和NP 等专用嵌入式硬件来设计与实现特征匹配算法,提高DPI 的匹配吞吐量。但是,这些基于硬件的特征匹配算法面临高性能挑战,即如何满足线速数据包内容过滤的时间和空间需求。本文从时间和空间等方面综述了基于硬件的字符串匹配算法和正则表达式匹配算法的研究进展,并展望了未来DPI 技术研究。
分类: 计算机科学 >> 计算机硬件技术 分类: 计算机科学 >> 计算机网络 提交时间: 2017-03-09
摘要: 全球路由表的高速膨胀使得当前的互联网域间路由系统的可扩展性面临着严峻的挑战。为了缩减路由表,很多研究提出了新的路由解决方案。本文在介绍了互联网路由系统现状之后,从较高层次上将存在的路由解决方案分为短期方案、路由架构和可扩展路由算法三部分,着重讨论了路由算法和路由架构这两类工作,对经典的可扩展路由算法和路由架构进行了分析和比较,最后对尚未解决的问题和未来的研究方向进行了总结和展望。
分类: 计算机科学 >> 计算机网络 分类: 计算机科学 >> 计算机硬件技术 提交时间: 2017-03-09
摘要: 链路带宽的剧增给高速网络数据包处理带来了极大的挑战。传统的纯软件网络数据包处理在性能上已不能满足需要。当前网络处理器、多核芯片等针对高性能网络数据包处理提供了硬件加速技术,对多数网络应用提供了高性能实现方法。在对数据处理时延、吞吐量、丢包率等性能指标有更高要求的应用场合,还需要专用的加速硬件。本文针对基于深度报文检测(DPI)的高性能流量分析和控制应用需求,介绍基于现场可编程逻辑门阵列(FPGA)的通用高速网络数据包处理硬件加速架构。该架构对数据采集通路进行硬件加速,实现了高速链路数据报文的线速采集,通过专用硬件进行数据包转发和流量控制,针对后端多核服务器的并行处理进行优化,实现了控制和分析平面的高性能处理。本文介绍该架构在流量采集、高精度时钟同步、高速包分类和流量控制等方面的硬件加速方法。测试结果表明,这些加速方法充分卸载了服务器的处理负荷,能有效地提高应用系统的性能。
分类: 计算机科学 >> 计算机硬件技术 提交时间: 2017-03-09
摘要: 本文分析介绍了三维芯片测试的最新进展,首先介绍三维芯片设计技术,通过对该技术的剖析,分析其当前面临的主要挑战:新型硅直通孔故障、不完整电路测试问题、绑定前后测试协同优化问题等。本文对国际上目前已经提出的多种方法进行了分析,并预测了未来的一些研究点。
分类: 计算机科学 >> 计算机硬件技术 提交时间: 2017-03-09
摘要: 随着集成电路制造工艺的特征尺寸不断减小,高性能集成电路产品的定时约束变得越来越严格。各种制造缺陷如阻性开路、阻性短路、通孔中形成空洞以及栅氧化层失效等现象的影响在当前先进的集成电路制造工艺下也变得越来越显著。为了确保芯片的出厂质量,通常需要对其进行有效的时延测试。对集成电路进行时延可测性设计不仅可以非常有效地检测芯片中的时延缺陷,而且可以为芯片在量产前进行有效的调试。在本文当中,我们首先介绍了集成电路中的时延缺陷对芯片性能和可靠性的影响,然后分别介绍了一些采用时延可测性设计技术来提高芯片时延测试故障覆盖率、精简时延测试向量集规模、检测芯片中小时延缺陷以及对芯片的时延故障进行在线检测的方法。