史上最大芯片WSE搭载最强大的AI计算系统,用来发现癌症疗法和理解黑洞碰撞

  眉间皱痕        2019-11-22 11:07:40

“史上最大芯片”正式装机交付,将被用于研究癌症疗法和黑洞碰撞


今年8月,集成1.2万亿个晶体管的“史上最大芯片”The Cerebras Wafer Scale Engine(以下简称WSE)诞生,在11月19日召开的Supercomputing 2019大会上,该芯片制造公司Cerebras Systems推出了搭载该芯片的计算机系统————Cerebras CS-1,这也将是世界上最强大的AI计算系统。美国两家国家实验室是该公司的客户,其中,阿贡国家实验室已成功部署并宣布,将用这套系统来发现癌症疗法和理解黑洞碰撞。

史上最大芯片WSE搭载最强大的AI计算系统,用来发现癌症疗法和理解黑洞碰撞

图|Cerebras CS-1(来源:Cerebras Systems)


CS-1搭载的并不是一个芯片,而是一整个晶圆。通常,硅芯片是从8、10或12英寸等不同规格的晶圆上单独切下来的。而Cerebras把晶圆切割成一个很大的长方形,每个芯片都相互连接,可以使每个晶体管都能像整体一样高速运转。一个典型处理器可能在一个芯片上有100亿个晶体管,而CS-1搭载的整个晶片上所有核的晶体管总数超过1.2万亿个。


在AI计算中,芯片尺寸至关重要,但是高级处理器必须要有专用的硬件和软件系统相配合才能实现理想的性能。Cerebras公司CEO Andrew Feldman在接受媒体采访时说:“你无法将法拉利发动机放入大众汽车中来获得法拉利性能。如果你想获得1,000倍的性能提升,你要做的就是消除瓶颈。”CS-1系统设计和Cerebras软件平台相结合,可以充分用到从WSE上的40多万个计算内核和18 GB高性能片上存储器中提取的每一点的处理能力。

史上最大芯片WSE搭载最强大的AI计算系统,用来发现癌症疗法和理解黑洞碰撞

GIF图|Cerebras晶片规模的引擎(来源:Cerebras Systems)


与GPU集群需要消耗数十个机架并且需要专有的InfiniBand进行集群不同,CS-1不需要大量修改现有模型,并且用户只需将基于标准的100Gb以太网链路插入交换机就可以启动培训模型。


CS-1有15个机架,大概是26英寸高(66.04厘米)。Andrew Feldman表示,CS-1是“最快的AI计算机”。CS-1计算机的机器学习能力相当于数百架基于GPU的计算机能力,这些计算会消耗数百千瓦。但CS-1仅消耗17千瓦,占标准机架能耗的三分之一。他把CS-1和谷歌的TPU计算集群相比,强调谷歌的TPU2机器学习集群需要10个机架和超过100千瓦的功耗,才能提供一个CS-1机箱三分之一的性能。


Feldman说:“我们是由40万个专用AI处理器组成的AI机器。”CS-1由40万核、1万亿晶体管大小的处理器芯片驱动,可以将原本需要至少几周的大型神经网络训练任务缩短到几分钟甚至几秒钟。但是,Cerebras并没有提供用标准AI基准(如新的MLPerf标准)衡量性能的数据。相反,它通过让潜在客户在Cerebras的机器上训练他们自己的神经网络模型来吸引潜在客户。


另外,Cerebras还公布了一些系统软件的细节,该软件允许用户使用Pytorch和Tensorflow之类的ML标准框架来编写他们的机器学习模型。强大的图形编译器可自动将这些模型转换为CS-1的优化可执行文件,而丰富的工具集可实现直观的模型调试和性能分析。

史上最大芯片WSE搭载最强大的AI计算系统,用来发现癌症疗法和理解黑洞碰撞

图|Cerebras软件系统允许用户使用Pytorch和Tensorflow之类的ML标准框架来编写他们的机器学习模型(来源:Cerebras Systems)


这是如何实现的呢?通过解决一个优化问题,确保所有层以大致相同的速度完成它们的任务处理,且与相邻层是连续的。这样信息就可以实现在网络中畅通无阻。该软件可以在多台计算机上执行这个优化问题,如果把32个CS-1连接在一起,那么这一组计算机所构成的大型计算机的性能可以提高约32倍。


Feldman说:“GPU集群无法实现相同的效果,你得到的不是一个大型计算机的算力,仍然是一堆小机器所能实现的算力。”他认为CS-1和GPU集群形成了鲜明的对比。


CS-1的第一个应用是预测癌症药物反应,这是美国能源部和美国国家癌症研究所合作的一个项目。能源部负责人工智能与技术的副部长Dimitri Kusnezov在一份声明中说:“在能源部,我们相信公私合作是加速美国人工智能研究的重要组成部分。”“我们期待与Cerebras建立长期而富有成效的合作关系,这将有助于定义下一代人工智能技术,并改变能源部的运作、业务和使命。”或许这也是Feldman能筹集到数亿美元并雇用大量员工的原因。

史上最大芯片WSE搭载最强大的AI计算系统,用来发现癌症疗法和理解黑洞碰撞

图|阿贡实验室(Argonne National Laboratory)


阿贡实验室与Cerebras的合作已经有两年了。其计算总监Rick Stevens在新闻发布会上表示:“通过部署CS-1,我们大大缩短了神经网络的训练时间,使我们的研究人员能够更高效地开展深度学习研究,在癌症、创伤性脑损伤以及当今和未来对社会有重要意义的其他领域取得重大进展。”


阿贡实验室是全球最大的超级计算机站点之一,而CS-1可以使这个站点比现有的AI加速器得到100到1000倍的提升,有望在2021年实现Aurora百万兆级超算的能力。一台百万兆级的计算机一瞬间进行的计算量,相当于地球上的所有人每天每秒都不停地计算四年。


除了用在研究抗癌药物之外,该系统还将被用来帮助理解黑洞碰撞行为及其引力波。此前做过类似研究的Theta超级计算机,在研究黑洞碰撞问题时需要调动超算所配置的4392个节点中的1024个节点,每个节点包含了一个64核处理器和16 GB的高带宽封装内存(MCDRAM),192 GB的DDR4 RAM和128 GB的SSD。


Cerebras的另一个客户劳伦斯·利弗莫尔国家实验室也来头不小,拥有世界排名第三的Sequoia超级计算机。CS-1也有望进一步增强其模拟计算能力。


https://spectrum.ieee.org/tech-talk/computing/hardware/cerebras-unveils-ai-supercomputer-argonne-national-lab-first-installation


https://venturebeat.com/2019/11/19/cerebras-systems-deploys-the-worlds-fastest-ai-computer-at-argonne-national-lab


来源:DeepTech深科技

注:文章内的所有配图皆为网络转载图片,侵权即删!

免责声明

我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~

为您推荐