高性能计算能力已成为一个国家综合竞争力的象征,许多大国都投入巨资以提高高性能计算能力,力求在未来的竞争中占据优势。其中,美国、日本、印度、俄罗斯等国以及欧洲在此领域的表现卓而不群。那么国外在发展高性能计算机方面有什么亮点呢?有什么我们可以学习和借鉴的地方?
竞争态势:多足并举
20年前人们就有了这样的想法,20年后,这一想法变得更清晰了:科学计算同理论研究和科学实验一样,已成为人类探索未知世界的重要科学手段,高性能计算在基础科学研究、国民经济发展和社会进步中具有不可替代的作用;超级计算机已经成为21世纪经济、科技全球化,强化国防建设的最为重要的基础设施,是科技创新的重要工具。
当前,超级计算机的性能继续以高于摩尔定律的速率(每两年性能提高三倍)发展,其应用领域也越来越广泛,由原来强调科学和工程计算,发展到用于网络信息服务和商业自动化支持,随之而来的变化是超级计算机也由原来强调速度发展到重视效率、好用、易管理、可靠性等非速度因素。
受应用需求的牵引,超级计算机技术在发展中也融入了新的内容。目前的高性能超级计算机是通过连接大量的节点构建而成的,每个节点含有一个传统的商用服务器系统。除了无法跟上处理器处理能力增长而需不断改进的网络部分外,其他部分几乎没有什么变化。ASCI蓝色太平洋和IBM SP系统的性能都超过10Tflop/s,达到了这类系统性能的顶峰。然而,在未来要将这类系统的性能提高到Pflop会有很大的难度,其系统耗电量极大,占地空间大,平均故障间隔时间短(目前高端超级计算机的MTBF超过100小时就很不简单了),编程和管理都很费事,而且价格高得惊人。
因此,美、日等国家正试图通过一种新的战略, 即通过打破摩尔定律和商用计算机及微处理器的技术基础,建造一系列新的超级计算机。这一战略将提供一种能将科学应用与计算机体系结构开发相结合的新方法,从而开创一条可持续发展的超级计算机研发道路。
产业格局:从TOP500看出端倪
第20次TOP500计算机排行榜于2002年11月亮相。与半年前的TOP500 相比,本次TOP500发生了较大变化。
首先,TOP10发生结构性变化。除日本的“地球模拟器”超级计算机以35.86Tflops的性能仍位于第一外,TOP10的位次均发生了改变。美国Los Alamos国家实验室的两台ASCI Q系统分列第二、第三位,实测性能达到7.73 Tflops,将“ASCI 白色”系统挤出了前三名,屈居第四;两台PC cluster系统首次进入TOP10,表明这种结构机器的性能提高较快;在前10位中,HP公司有4个系统,IBM有3个系统,NEC、Linux NetworX和HPTi各有一个系统;美国在10个系统中占了7个,日本、法国和英国各占1个。
第二,性能突飞猛进。从TOP500的总体情况看,实测性能超过1Tflops的系统由半年前的23台增加到47台,峰值性能超过1Tflops的系统由半年前的70台增加到100台,增加幅度很大,说明万亿次级的系统得到越来越广泛的应用。TOP500的性能增加也较快,合计性能由半年前的222 Tflops增加到293 Tflops,TOP500最后一台系统的性能为195.8 Gflops,而半年前为134.3 Gflops。
第三,PC cluster系统大幅度增加。共计有93个系统,其中,55个基于Intel PC的系统,8个基于 AMD PC的系统,4个Sun的系统,3个基于Alpha的系统,23个HP AlphaServer系统。其中,有16个PC cluster被列为“自制”,说明高性能计算的用户自行制造超级计算机将越来越普遍。
第四,Constellations(星群)结构的计算机系统台数首次超过MPP结构的机器。Constellations(星群)结构的计算机为206台,MPP系统为195台,表明这种当前构造超大规模计算机系统的首选结构有超越MPP的趋势。
典型系统:为了一个目标
未来几年中,国外计划开发的超级计算机主要有以下6个,如下表所示。 (1)Cray X1 Cray X1所使用的标准部件为多线程处理器(MSP),每个MSP中含4个定制向量处理器(时钟频率为800MHz),4个MSP构成一个节点。X1的机柜分为空冷型和液冷型两种,每个空冷型机柜包含4个节点,每个液冷型机柜包含16个节点。一台完整的Cray X1超级计算机由64个液冷机柜组成(包含1024个节点,即4096个定制MSP处理器),共享存储器容量为16TB~64TB,预计峰值运算速度将达到每秒52.4万亿次。单机柜液冷系统占地面积32平方英尺,计算密度25Gflops/平方英尺,计算效能13Gflops/kW。
(2)Cray红色风暴 美国能源部Sandia实验室与Cray公司在2002年10月签订了一个9000万美元左右的长期合同。Cray将根据该合同与Sandia合作开发“红色风暴”新型大规模并行处理(MPP)超级计算机,预计将于2004财政年度投入使用。整个系统将使用1.6万个AMD Opteron处理器,系统采用HyperTransport技术,通过低延迟、高带宽、三维网格互连网络连接即将推出的AMD Opteron处理器。“红色风暴”的峰值速度将达到每秒40万亿次。
(3)IBM蓝色基因/L “蓝色基因”的峰值浮点运算速度将达到每秒360万亿次,占地面积约为一个篮球场大小,功耗1MW,冷却能力300吨。“蓝色基因”采用NCC-NUMA体系结构,整个系统含有6.4万个运算节点,通过3个网络(以太网、三维Torus点到点高速数据通信网和全局操作网)连为一体。“蓝色基因”的处理器芯片不是一个单纯的CPU芯片,而是一个片上系统(SOC),每个处理器的主频约为800MHz,含有一个PowerPC440处理器内核、一个I/O子系统、两个浮点运算部件、一级缓存和二级缓存、内存接口以及与3个网络相连接的接口。另外,它还采用低功耗技术、硬件支持可重构分区技术和自恢复技术等。
(4)IBM蓝色行星 “蓝色行星”系统将由2048个SMP计算节点(含16384个CPU)构成,采用Federation 开关网互联,每个节点由8个经过改进的Power 5“单核”CPU组成,新Power 5的时钟频率至少达到2GHz,可提供8G~10Gflops的能力。“蓝色行星”系统大约需要6MW的功耗和1700吨~2000吨的冷却能力,初始系统将占地1.2万平方英尺。该系统将采用 “Virtual Vector Architecture(ViVA)”技术。该技术可以将节点中的8个Power 5 CPU构成一个虚拟的、60G~80Gflops的向量部件。
(5)IBM ASCI紫色 ASCI“紫色”是继ASCI“红色”、“蓝色”、“白色”和“Q”之后的第五代计算平台。ASCI“紫色”将采用12544个时钟速度超过2GHz的Power 5处理器,内存容量为50TB,存储器带宽达156TB/s。新系统计划于2004年年底之前投入运行,峰值性能将达到100万亿次。
(6)富土通 HPC2500 富士通HPC2500使用大规模并行可伸缩设计,其使用的是1.3GHz的Sparc64 V处理器。Fujitsu能使每个节点(含128个处理器)达到665.6 Gflops的理论峰值速度,当128个节点(总共16384个处理器)通过高速光互联连接到一起时,峰值速度将高达85.1万亿次。
应用趋势:解决实实在在的问题
根据不同的用途,高性能计算应用需求可分为能力计算(Capability Computing)和容量计算(Capacity Computing)两类。据此,也就可以将当前的高性能计算系统分为技术能力型计算系统和技术容量型计算系统。据IDC统计,上世纪末(1999年)全球高性能技术计算市场的年收入达到56.17亿美元,其中能力计算和容量计算市场分别占9.34亿美元和46.83亿美元。近几年,容量计算市场增长迅猛,预计2003年将增长到63亿美元(年增长率为9.3%),而能力计算市场也将达到12亿美元(年增长率为6.3%)。
能力计算是一种基于大规模数据的计算需求,主要目的在于缩短计算时间,以期得到强大的处理性能。这类应用主要包括大规模数学、工程计算、数值模拟等一些计算密集型任务,像密码破译、核爆模拟、气象预报、天体物理、流体力学、基因分析等皆属于此类应用,它们的专门应用程序大都要求高端的计算能力,通常单个程序就会占用高性能计算系统的全部计算能力。面向能力计算的HPC系统往往是市场中的一些高端产品,它们大多由政府部门针对某些“大挑战”应用,统一部署,集中投资,研制公司按合同完成生产,通常只出一台机器。典型系统如美国能源部的ASCI机器、国家安全局支持的Cray X1、日本科技厅支持的“地球模拟器”和Grape-6等。
容量计算是一种基于较小规模数据的计算需求,其目的在于提高吞吐性能,尽可能地高效执行多个处理任务;这类应用主要包括协同工作、网络检索、远程医疗诊断、Web信息服务等通信密集型处理任务。面向容量计算的HPC系统大多是HPC市场上的中、低端产品,这类系统往往有大量的终端用户,他们通常都在一台多用户机或多台单用户机上运行大量的小应用程序。技术容量市场由HP、IBM、SGI、Sun等公司生产的商用HPC系统所主宰,这些系统大都是各种规模的SMP系统,如HP的AlphaServer SC系列和Superdome系列、IBM RS/6000系列、SGI Origin 2000/3000系列、Sun E服务器系列等。目前,容量更大的商用数据库市场也在购买这些超级服务器系统。
技术趋势: 九九归一
超级计算机今后的开发热点仍然是万亿次以上的系统,短期目标是百万亿次,长期目标是千万亿次甚至更高,以提供解决21世纪巨大挑战性问题的工具。为实现上述目标,美、日等国正加速研发新的结构技术、器件技术和软件技术。 (1) 可伸缩集群系统结构发展迅速 集群结构目前有两种,一种是SMP集群,一种是PC集群。SMP集群的节点机一般为超级服务器,通过一些高速定制网络将它们连接起来构成大规模并行处理系统。如HP正在研制的ASCI Q 30万亿次机就是由374个服务器构成,采用一种QsNet开关网互联。在2002年11月的计算机TOP500中,这种结构的机器已超过MPP系统,成为数量最多的计算机系统。 PC集群则是通过一些通用标准互联网络将众多的个人计算机或工作站集中为一个单一的功能强大的计算机系统。如IBM公司为壳牌公司提供的一套Linux计算机集群系统,就是由装在32个机柜中的1024台IBM eSever x330构成,计算能力超过2万亿次。集群系统充分利用开放资源,容易提升性能,可用性和可靠性高。 (2) 定制超级计算机可能成为突破千万亿次性能的新途径 20世纪90年代末以来,美、日两国相继都制定了采用定制CPU技术制造超级计算机的计划。2002年10月美国能源部阿贡国家实验室和劳伦斯贝克利国家实验室的科学家们提出了一项国家级战略性建议,题为“科学应用驱动的计算机结构:一条科技领先的新途径”,对2010年前美国超级计算机的应用需求、发展策略、技术措施和步骤等做出了较详细的部署,特别指出政府应重点支持三种选择的尖端系统开发:最高成本——如Cray X1系统;次高成本——如IBM Blue Planet系统;最低成本——如IBM Blue Gene系列。其中,第一和第三选择都是属于定制超级计算机。承担这两种系统研制任务的Cray和IBM公司都宣称,如果有持续的投资,不久的将来可实现千万亿次计算机系统。 (3) 网格计算成为新手段 21世纪高性能计算的趋势是与网络结合,特别是面向广域网的新技术。计算网格(Computational Grid)也称元计算(Metacomputing)、远程计算(Distance Computing),主要是指基于高性能互联网络(Internet Ⅱ)实现的高端计算技术,众多计算资源通过高性能互联网广域连接构成高端计算环境,为科技人员和普通百姓提供更多的资源、功能和交互性,让人们透明地使用计算、存储等资源。网格的主要特征是:资源共享,动态配置,协同工作,不存在任何集中控制;使用标准、通用、开放的协议和接口;高服务质量,包括响应时间、流量、可用性和安全性。计算网格主要包括网格(Grid)、P2P(Peer-to-peer)计算技术等。 目前,美国越来越重视网格与军事项目的结合,提出了很多主要计划。如DoD高性能计算现代化HPCMP网格计划,1998年建成了4个主中心,13个分中心,以数十个远程中心,网络带宽2.4Gbps,主要用于军事研究的资源共享;DoE Science Grid 和ASCI网格,其中ASCI网格与机器同步研制,2001年LLNL、SNL、LANL三个美国国家实验室的ASCI机器已经通过专门的高速网连接,并开始投入生产性使用。 可见,网络计算将是未来高性能计算的重要发展方向之一,它将成为21世纪提供高性能计算能力的重要手段。