项目背景
高性能计算系统是提高一个科研机构研究水平的重要基础设施,也是一个国家科技与经济实力的标志。它不仅是一个高速处理的计算机系统、更重要的是在其之上运行的各种应用对科学领域产生非常深远的影响。20世纪90年代中后期以来,许多高性能计算应用领域越来越多地希望利用计算机技术发展的新成果,通过更大规模、更的数值模拟和数字计算来进行新产品设计和科学研究,基础学科和多学科综合设计等领域随着问题规模的扩大和求解精度的增加需要越来越多的高性能计算资源,高性能计算平台已经成为科研教育结构提高科学研究水平的重要手段。
由于高性能计算机集群(HPC)系统能够快速准确计算出结果,有助于解决商业和科学研究中面临的问题,所以,HPC集群越来越多的被政府部门、商业组织和科研教育机构所采用。选择一个正确的互连网络是能否达到甚至超过您对HPC集群性能预期的关键。Infiniband高速网络是近几年产生的一种新兴技术,其是一个标准化的、开放的高性能互联技术平台,在从小规模到大规模的可扩展性集群中拥有很强的生命力,因其具有高带宽、低延迟的特色,得到了计算领域越来越多的青睐。本文即为基于Infiniband搭建某大学高性能集群建设方案。
项目需求
某大学需要建设一个高性能计算集群。高性能集群的搭建需要考虑以下几点:
1、HPC对计算节点的计算能力的需求非常高,特别是浮点处理性能。
2、HPC对网络延时和带宽的要求很高。
3、系统运行稳定性要求高
按此设计,要求在有限项目资金预算的前提下尽可能多的配置高性能的计算节点,同时互联网络采用二网分离模式,即集群系统的计算网络和数据传输网络都建立在Infiniband的高速网络上,集群管理网使用千兆以太网进行日常维护、管理等工作。
解决方案
针对对客户的主要应用需求,提供有针对性的解决方案:
1、计算节点:由斯坦德服务器组成,采用新的处理器技术,获取强劲的计算性能。
(1)采用Intel E5系列六核CPU,可以获得针对技术计算工作负载的更高的浮点运算性能,适合于MPI分布式内存的计算。
(2)内存高达128G,提供双冗余电源,在系统提供强劲的计算性能的同时,保障系统正常运行。
2、计算网络:采用40Gbps Infiniband,配置IB交换机,实现所有计算节点和管理节点的无阻塞通信,减轻IO对CPU的负担,释放CPU性能。
3、管理网络:配置千兆管理网络,高性价比。
4、IO子系统:各节点安装双千兆网卡和40Gbps的QDR Infiniband卡,实现内外高速互联,低延时。
5、提供系统的软件工作、管理平台
计算节点和管理节点采用斯坦德IS2000服务器,其是搭建HPC的高性价比选择之一,各计算节点配置双路E5系列的6核CPU。集群将由15台计算节点和1台管理/IO节点组成。
集群软件选用ROCKS clusters,ROCKS clusters是目前应用广泛的集群操作软件,其完全按照SMP集群的分布式架构进行开发。作为业界出色的集群操作系统,具有相当多的优点,其可实现集群自动化部署、提供了一整套基于WEB的监控组件,同时具有强大且丰富的第三方软件的支持,包含了许多用于高性能集群计算的开源软件,如ganglia集群运行状态监控软件、SGE作业调度软件,是搭建HPC系统的理想搭档。
方案优势
此方案层次清晰,组网灵活,具有极高的可性价比和高可用性等特性。
1、高性价比
网络架构采用二网分离模式,由infiniband网络和百兆以太网两部分构成,计算网络和数据传输网络由Infiniband的高速网络互联,集群管理网由千兆以太网构成,在保持高性能的前提下, 兼顾了项目建设成本,具有极高的性价比。
2、高性能、低延迟
此方案采用infiniband网络做基础,各计算节点均配置infiniband网卡,各节点大网络带宽可达40Gb/S,同时降低I/O通信对CPU的负担,将大量宝贵CPU资源用于其他应用,将处理器的性能大限度的留给应用。
3、高扩展性、高可靠性
采用高性能集群架构,对用户而言,此即为一单一系统,只要一台节点可用,该集群就可以提供持续的服务,同时集群节点的数量和配置可以根据用户的需求来确定,在系统需要进一步发展扩容时,可对系统进行即时升级。
4、易维护、管理方便
采用ROCKS集群管理软件,在系统的安装、维护方面,其可以实现系统自动部署,无须人为干预,同时第三方软件支持强大,对系统监控、集群消息传递等方面都有着成熟的软件支撑,提供MPI编程环境。ROCKS软件目前已成为应用广泛的主流集群软件。

智能制造网APP
智能制造网手机站
智能制造网小程序
智能制造网官微
智能制造网服务号











智能控制
机器人
仪器仪表
物联网
3D打印
工业软件

回放




浙公网安备 33010602000006号
智能制造网APP
智能制造网小程序
微信公众号


