每隔几年,数字基础设施都会经历一次意料之外但又突如其来的转变。


在上世纪90年代早期,我们看到了万维网和分布式计算的客户机-服务器模式的发展,这导致了人们如今所说的云。五年之内,市场发生了翻天覆地的变化。接着是Linux:云供应商增加了他们的产品以支持额外的服务,并创建了可以抽象底层硬件的框架,这反过来加快了创新。云计算最初被认为是一个过于牵强的概念,如今已成为一个巨大的颠覆性力量。


云计算提供商已经能够收集遥测数据,以便深入了解最流行的工作负载,进而针对特定工作负载或KPI进行芯片优化。AWS可能在Nitro(这是一个自主开发的网络/存储/安全子系统)和Graviton2(Twitter、Snap和Coinbase等采用的通用应用程序处理器)上走得最远。谷歌已经开发了TPU作为神经网络机器学习的加速器,其他领先的云提供商正在开发用于AI和安全等功能的ASIC。

是什么推动了基础设施中的芯片多样性?

基础设施芯片垂直化的驱动力


但是,为什么云计算提供商要承担繁重、耗时和昂贵的任务来构建和部署定制半导体呢?这可以归结为两个强烈的动机:一个是对自主性的渴望,另一个是对所交付的性能的每个组成部分的竞争压力。TCO是一个复杂的计算,它驱动着超大规模数据中心的决策者。


一种定制的,但不是完全的芯片方法让设计者消除了潜在性能权衡的特性(比如多线程),同时在更大的生态系统中占有一席之地。超大规模运营的规模、小规模改进带来的经济影响、能够支持多样化硬件的云计算原生软件运动,以及开发内部芯片设计的工具和技术的更大可用性,有效地结合在一起,使硅多样性再次成为一股力量。此外,第三方芯片制造和硅IP提供商的崛起有助于大幅降低将新设计推向市场的交易成本。


对于规模较小的公司来说,好消息是定制精灵已经过时了。独立的芯片设计人员正在开发不同布局、内核数、缓存大小、速度、内存带宽、I/O和其他因素的云处理器变体,以服务于比自己更广阔的市场。如今最大的超规模企业的服务提供商也将通过性能优化、成本优化和/或位置优化的实例开拓市场。核心技术层面的定制将为每个人提供。


所有的路都通向能源


定制也将成为对抗另一个关键因素(TCO的能源部分)的主要工具之一,当组合不同的硅组件时,芯片级集成也将成为主要工具之一。能源可以达到数据中心运营成本的40%或更多,但电力和热力也会增加资本成本、房地产和维护成本。反过来,这些更高的成本会给利润和客户满意度带来压力,创新也会放缓。超大规模数据中心也面临着更好地控制水和电消耗的压力。阿姆斯特丹和北京等城市对数据中心的规模和用电量进行了严格限制。如果自治是关于你想做什么,能量方程是关于你需要做什么。


在2010年代,能源效率和每瓦特的性能是云革命的无名英雄。在这十年中,数据中心的工作负载和互联网流量分别增长了8倍和12倍,但数据中心的功耗基本持平。


看来2020年仍将充满挑战。摩尔定律带来的回报是递减的,整合、虚拟化和冷却带来的许多收益已经收获。与此同时,随着视频会议、流媒体和人工智能的出现,数据中心的工作负载和互联网流量增长更快。Applied Materials预测,如果没有重大创新,到2025年,数据中心的电力消耗将从占世界电力消耗的2%增长到15%。更高的功耗可能会提高运营成本、资本要求,最终会增加云服务的成本,进而抑制云服务的采用。


对于5G和边缘计算技术的开发者来说,能源等式更具挑战性,他们将不得不面对更严格的性能、功率和价格参数。


好消息是,芯片多样性正在加紧迎接这一挑战。将cpu和npu结合起来可以大幅降低运行推理计算的功耗,为在单个设备上而不是在云上运行更多人工智能操作铺平道路。


随着十年的过去,多样性将会激增。下一个即将出现的芯片是将数百个甚至数千个cpu、gpu、npu、dpu与数TB的SRAM和DRAM以及高速互连统一到虚拟SoC中的芯片。通过将优化的半导体硅集成到单个器件中,芯片有望极大地提高性能,并通过消除生产单片半导体所带来的许多产量和设计问题,以更低的成本实现。它们还提供了一个更快速的采用路线图,有效地允许芯片内部的不同元素以自己的自然速度前进。基于晶圆级芯片的设计可能需要1千瓦的功率,但它将能够实现petaflop级的性能,并管理比当今处理器多得多的任务。


当然,在这一过程中也会有意想不到的突破。人们无法准确预测路线图将如何展开,但在核心芯片创新方面,未来十年将是一个引人入胜的时期。



免责声明

我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~