郑纬民教授在HPC China 2019上。 大会组委会供图
8月22日,由中国计算机学会(CCF)主办,中国计算机学会高性能计算专业委员会、内蒙古和林格尔新区管理委员会、清华大学、内蒙古大学共同承办,北京并行科技股份有限公司协办的“2019 CCF 全国高性能计算学术年会”(HPC China 2019)于内蒙古呼和浩特举行。
《中国科学报》记者在此次年会上获悉,基于我国已建成的超大规模高性能计算机,中国超算应用团队还将继续冲击2019年的戈登贝尔奖,该奖项将于11月在美国举行的国际超算大会上揭晓。
“戈登贝尔奖”是国际上高性能计算应用领域的最高学术奖项,被称为“超算领域的诺贝尔奖”。拜中国最强超算“神威·太湖之光”所赐,中国超算应用团队曾在2016年、2017年连续两夺“戈登贝尔奖”——在此之前,美国、日本垄断该奖项长达近30年。
中国超算应用团队还能否在2019年甚至未来再次斩获这一殊荣?戈登贝尔奖在引领超级计算机未来哪些发展趋势?
戈登贝尔奖的两个基本条件
怎么才能获得戈登贝尔奖?在HPC China 2019上,清华大学计算机系教授、大会共同主席郑纬民总结了两个最基本的条件:第一,应用程序在TOP500前几名机器上全机运行;第二,应用程序有很好的性能。
这两个条件,也从侧面解释了中国多年来没能获得戈登贝尔奖的原因——中国超算第一次排名世界第一,是2010年11月的“天河一号A”。短时间内,中国超算应用还需要孕育。
也就是说,硬件水平只是基本要素之一。正所谓“硬件搭台、软件唱戏”,戈登贝尔奖要求,应用程序要在顶级的硬件的舞台上唱出精彩的戏才行。
“虽然说戈登贝尔奖是拜‘神威·太湖之光’所赐,但这也只是获得该奖项的硬件基础。如果没有高效、创新、面向解决重大问题的应用被开发出来,也无法获得戈登贝尔奖。”HPC China 2019上一位要求匿名的业内专家告诉《中国科学报》。
2016年代表中国首次摘得戈登贝尔奖的团队负责人、中科院软件所研究员杨超也告诉记者,那些软件水平足够高、方法有创新并且对今后的应用有示范意义,入围和得奖的机会才够大。
问题是,什么样的超算应用对未来有示范意义?
在HPC China 2019大会主论坛上,郑纬民对入围2018年戈登贝尔奖的6个超算应用项目进行了分析,试图回答上述问题。
2018年戈登贝尔奖的“风向”
从郑纬民提供的2018年ACM 戈登贝尔奖入围名单可以看到,2018年,中国超算应用团队只有一支“独苗”挺进“戈登贝尔奖”决赛名单。记者通过查询资料得知,这支队伍由清华大学林恒博士和卡塔尔计算研究所、搜狗等7家机构的研究人员组成,所开发的应用名为:基于神威·太湖之光的超大规模图计算系统“神图”。
郑纬民介绍说,“神图”图计算框架项目探索了在超算系统上如何开展极大规模图数据的高效处理,是一个典型的运行在超级计算机上的人工智能应用。遗憾的是,最终“神图”图计算框架项目未能为中国拿下2018年的戈登贝尔奖。
2018年戈登贝尔奖颁给了两个来自美国的团队,分别是橡树岭国家实验室应用超级计算机来应对药物流行病,通过基因组学分析研究药物在人群中的使用;以及劳伦斯伯克利国家实验室“用E级规模的深度学习进行气候分析”,通过大规模的深度学习识别极端天气。
这两个超算应用都是当今排名世界第一的Summit超级计算机上实现的。郑纬民介绍说,其中,“应用超级计算机来应对药物流行病”是一个传统的科学研究应用,属于基因组学计算领域,由美国能源部下属的橡树岭国家实验室的研究团队领衔完成;而“用E级规模的深度学习进行气候分析”则是一个运行在超级计算机上的人工智能应用,由劳伦斯伯克利国家实验室和英伟达公司的联合研究团队完成。
郑纬民评价道,这两项研究,前者是高性能计算与生物信息学、医学相结合的一个典范,后者则是“首个可以有效扩展到近3万块(27360块)GPU加速卡的深度学习应用”,成为其最大亮点。
在其余四个入围戈登贝尔奖的应用中,郑纬民介绍说,“引入了混合精度计算来充分发挥GPU计算资源的效能”的“城市地震灾害模拟项目”,和“探索了在超级计算机上如何开展极大规模图数据的高效处理”的“‘神图’图计算框架项目”,都是典型的运行在超级计算机上的人工智能应用。
从上述6个入围戈登贝尔奖项目的分析中不难看出,获奖的“用E级规模的深度学习进行气候分析”项目,与入围的“城市地震灾害模拟项目”“‘神图’图计算框架项目”,均属于超算与人工智能融合的范例——超算上的人工智能应用已经占据了半壁江山。
也正因此,郑纬民也将“人工智能应用有望成为超算的主流应用之一”总结为未来超级计算机与应用的两个重要发展趋势之一。
未来如何走得更远
郑纬民总结的另一个趋势是,异构架构在超算系统构建层面被广泛接受。他认为,目前全球超算TOP10的系统中,异构架构超算已经占据了七成。尽管“加速器异构”和“异构众核”之争仍在继续,异构架构已成为构建顶级超算系统的大势所趋。
记者观察到,在全球TOP10的超算中,以英伟达GPU为代表构建的异构超算占了5席。考虑到人工智能在科学与工程计算中越来越广泛的应用,这也为人工智能应用与超算的融合打下了硬件基础。
算力一直被认为是人工智能再次腾飞的重要基础之一。而随着深度神经网络规模的扩大,最新的网络生成和训练往往需要数万GPU小时(如BERT、NASNet等)甚至更多。
对此,郑纬民说:“具有顶级计算能力的超算系统理应为大规模人工智能应用提供助力,不断拓展后者的技术边界。”
再回到2018年戈登贝尔奖入围名单上。从该奖的选择来看,有3个人工智能应用得以入围,其中1个最终得奖。
“2018年的戈登贝尔奖选择大规模深度学习应用,入围应用中人工智能相关的项目也前所未有地占据了半壁江山,这一切都预示着人工智能与超算的结合将越来越紧密。”郑纬民说。
中国到底能否在2019年甚至未来再次斩获这一殊荣?我们拭目以待。但不容忽视的是,以深度学习为代表的人工智能算法,已经影响了硬件的发展方向,并且会在将来进一步扩大其影响。
中科院计算所研究员、国家超级计算济南中心主任张云泉也表示,以科学计算为代表的传统高性能计算程序必须接受这一个事实,只有主动拥抱这一个事实,并寻求两者的结合点,才有可能在未来走得更远。