“融合应该是一个趋势。我们不光看到传统的高性能计算与AI的融合,还看到计算架构的融合,也看到高性能计算也会以云计算的方式来提供服务。”日前,在2019联想全球超算峰会上,中科院计算所所长孙凝晖说。
在这次峰会上,联想发布了“深腾X9000融合计算平台”,以高性能计算集群(HPC)为核心,平台能够在一个集群中同时运行高性能计算与人工智能开发作业,提供统一的资源调度功能。这是联想瞄准了高性能计算的市场“蛋糕”,准备以“融合”的方式来破局。
近年来,中国超算迅速发展。但如何让超算更好地为产业、生活服务一直是业内探讨的焦点。
“早几年我们一直在说,国产超算,在硬件系统方面走得比较快,但在应用方面跟美国、欧洲、日本等,还有比较大的差距。”第34届国际超级计算大会主席、中国国家超级计算广州中心主任卢宇彤曾说,以前超算是以系统为中心,关注优化程序,追求更高性能,但是到了超算中心以后,开始向以应用为中心转变,让更多的行业领域能够更方便的使用超算。在人工智能、大数据和云计算等技术快速发展的环境下,超算与之也有了更深切的结合点。
E级超算制高点“争夺战”
毫无疑问,超级计算机正成为高性能计算式科技进步与科学突破的“发动机”。在最新的基础科学领域——诸如大气变化模拟、核聚变研究、生命科学、天体物理的研究中,超级计算机都在扮演越来越重要的角色。
10年前,我国首台千万亿次超级计算机“天河一号”一期系统研制成功,自此成为继美国之后第二个能够研制千万亿次超级计算机的国家,并于次年摘取世界运算速度最快的超算桂冠。
而如今,新一代百亿亿次超算也就是E级超算,成为各国在超算领域追逐的新目标。E级超算是指每秒可进行百亿亿次数学运算的超级计算机,被全世界公认为“超级计算机界的下一顶皇冠”。
E级计算到底有多快?“天河一号”的峰值运算速度为每秒4700万亿次,它运算1小时,相当于全国13亿人同时计算340年以上。E级超算的计算速度是“天河一号”的200倍,它运算1小时,相当于全国13亿人民同时计算7万年以上。
中国高性能计算重点研发专项总体组组长、中山大学数据科学计算机学院院长钱德沛介绍,在E级超算上,各国都不愿放弃“制高点”。迄今为止,美国能源部已投入18亿美元建造三台E级超算,第一台A21将在2021年上半年上市;日本E级超算Fugaku的新一代ARM处理器已经完成,扩展了512位,内存采用了HBM(高带宽存储器)处理,“整个系统节点内存非常高”,计划于明年推出试用;欧盟也不甘落后,将在2023年左右建立欧洲的E级计算的基础设施。
我国在E级超算领域也有布局。中国石油东方地球物理公司研究院数据处理中心总工程师赖能和拿油气勘探举例,“如果没有高性能计算机的话,物探很多算法是实现不了的,也谈不上高精度勘探、高精度成像。”他说,做油气勘探实际上就是给地球的近地表做CT(电子计算机断层扫描),从采集开始就会产生海量的数据,对计算机的处理、存储都有很大的挑战。而现在,生产的实际需要对超算的高性能并行架构、算法等多方面都提出了更高的要求。
“发展到融合计算是一个自然的进程”
“未来十年是体系结构发展黄金时期”的观点得到了业内越来越多的认可,中国工程院院士李国杰认为,目前超算正面临“70年未有之大变局”。在能效增长远低于速度增长,尤其在业界普遍认为摩尔定律正日渐失效的背景下,可能出现一个全新计算机架构的“寒武纪”大爆发。
联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧认为,高性能计算为人工智能、大数据的崛起提供了计算引擎,而人工智能、大数据又带动高性能计算呈现新的发展形态。“可以看出,在各个层次上的协同设计会成为高性能计算发展的关键点。”李国杰也认为,在人工智能飞速发展的当下,面向智能应用的超级计算机是未来二十年需要高度重视的研究方向。
一个成功的案例是“初至波自动拾取”。地震发生后,地震观测点最先接收到的波称初至波。赖能和介绍,为了勘探石油,他们必须要进行初至波的拾取工作,过去完成一次初至波的拾取会产生30T的数据,“30T的数据得30个人连续干60多天,这其中全是重复劳动。”他说,有了“AI+HPC”后,用机器拾取每一秒钟可以拾取一千个点,效率大大提升。
“计算发展到‘融合计算’是一个自然的进程。”联想集团首席科学家、北京航空航天大学教授祝明发说,计算机性能提升的速度永远不及需求的增加,加快提升计算力,推动计算力共享,并“赋能”科研院所、行业、企业是当务之急,与技术、行业、生态的融合发展才能更好地发展科技。
“自主可控不是一个可选项”
从1978年,我国启动巨型计算机研制工程至今,中国超算已经走过了40余年,期间破解了多个“卡脖子”环节,硬生生闯出一条“新路”,走到了国际前列。但从全球范围看,尤其是和美国相比,我们仍有不少差距。
这样的差距存在超算的各个部分,包括高性能处理器和加速器,特别是3D的内存、新型的存储器件、光交换和光传输等。前不久,中科曙光、江南计算技术研究所等E级超算原型机的研制方被美国商务部列入“实体清单”,许多瓶颈技术再无法从国际上寻求突破。
“在这样一个国际环境下,我们现在发展肯定要有一个底线思维,自主可控可能不是一个可选项,而是唯一的出路。”钱德沛说,在外部限制甚至封锁的条件下,如何继续发展中国超算,是我们面临的重大问题,虽然自主可控和开放合作并不矛盾,但只有自身强,有自己可以控制的技术才有可能广泛地开展合作。
钱德沛建议,除了重视体系结构的研究,下一步,我们应特别重视构建高性能计算的生态环境。“现在只能依靠我们自己的处理器来研制系统,从操作系统语言、编译开始到应用软件的开发等,要尽快地通过技术辐射形成国产服务器的序列。如果构建不起我们的生态环境,我们的技术就没有用。”
目前,我国大型科学计算的应用软件基本上依靠进口。一些国家重大行业企业研发了部分应用软件系统,但多数停留于自研自用,缺少相应的产业化工作,商业推广应用能力不足。李国杰说,我国超算经费用于应用软件开发的还不到10%,约为美国的1/6。补齐软件短板的关键是人才,但目前能培养高性能计算软件人才的大学很少,需要加强。
另外,“软件开发要走开源的道路”,钱德沛说,软件如果封闭在自家单位里那很难成熟。同时,还要重视超算和新技术的融合。他认为,未来各种智能的加速部件都会以数据为中心构建,因此,AI、大数据等应用将对超算的体系结构产生影响。