优亿链收录网_自动秒收录外链

云计算如何创芯:“逆向工作法”的性感之处


文章编号:988 / 更新时间:2024-02-18 10:21:54 / 浏览:

云计算如何创芯:“逆向工作法”的性感之处

云计算如何创芯逆向工作法的性感之处

参与者们好奇,在生成式AI几乎席卷一切的背景下,一个处于领导者地位的云厂商,将会向外界讲出怎样的人工智能故事?

如果站在未来看当下,生成式AI可能是一场大型马拉松,但亚马逊云科技现在就已经在勾勒出它的地图。在亚马逊云科技CEOAdamSelipsky长达两个半小时的演讲中,一张生成式AI技术堆栈图图贯穿了整场。

亚马逊云科技生成式AI技术堆栈图(GenerativeAIStack)

从上图可见,亚马逊云科技搭建了三层AI堆栈:最底层是用于训练和推理的「基础设施层」,这里包括一些亚马逊云科技的自研芯片;中间层是微调大模型或基础模型需求的「工具层」;最上层是「生成式AI应用层」,这里包括此次新推出的生成式AI助理AmazonQ。

概括而言,亚马逊云科技正在构建一种范式,去尽可能匹配这个时代下的更多客户的更多需求,正如AdamSelipsky所说我们在用一种跟传统完全不同的方式探讨生成式AI概念。

不过,正所谓见微知著,我们决定将「芯片」,作为观察今年亚马逊云科技re:Invent新发布的切入点。

摄于2023re:Invent一角

十年自研,逆向造芯

很多人了解亚马逊云科技,知道它是全球领先云厂商,构建底层软件的能力非同一般。但大家可能不那么了解的是,亚马逊云科技还是一个在芯片及硬件层有深厚技术底蕴的公司。

早在十年前的2013年起,亚马逊云科技就开始自研芯片,至今已形成了一个芯片全家桶,包括四个系列:

构成技术底层核心的虚拟化芯片AmazonNitro

通用处理器芯片AmazonGraviton

而且实际上,近年来亚马逊云科技一直在年中举办亚马逊云科技硅芯片创新日,与产业交流相关创新。就在今年6月的2023年芯片创新日,AmazonEC2副总裁DaveBrown回忆起2012年,当时亚马逊云科技是如何进入芯片设计的故事。一晃,已是十年。

他描述了一群领导者,包括PeterDeSantis和JamesHamilton,如何设想增加一个硬件设备来增强亚马逊云科技的安全性和性能这个简单的想法,开启了一个全新的时代,带来了多种定制的芯片产品。

而在此次re:Invent,就有两款亚马逊云科技自研芯片有了重大升级,分别是:

AmazonGraviton4和AmazonTrainium(原型)(BusinessWire提供)

AmazonGraviton系列芯片,无疑是芯片发展史上浓墨重彩的发明。提起ARM架构的云端芯片,大家似乎不陌生。但如果把时钟拨回到6年前,虽然当时业界已经通过iPhone,认可了ARM架构是移动端CPU的好选择。但是,开发并规模化商用ARM架构的服务器CPU,还是前无古人的创举。

而亚马逊云科技就是那个开创者,AmazonGraviton第一代诞生于2018年,现在接近10%的服务器总销售额是ARM,其中很大一部分来自亚马逊云科技。在CPU方面,这家公司做得很好。BernsteinResearch高级分析师StacyRasgon在一次接受采访中如是说。

本次大会,AmazonGraviton已经更新到第四代,但依然没有放慢高速增长的步伐。据悉,与前一代相比,AmazonGraviton4性能提升30%,独立核心增加50%,对于高并发等应用所需要的内存带宽,更提升75%,并且,还进一步通过高速物理硬件接口的完全加密提升了安全性。

熟悉造芯的朋友们都知道,设计和成功流片一颗新架构的芯片只是造芯的基本功,而能让芯片规模化的用起来,才是决定造芯是否成功的天花板。

在管理理念上,亚马逊内部有一招很特别的法门,叫做workingbackwards逆向工作法。亚马逊云科技的成功造芯,或许正与此有关。

关于逆向工作法,曾经贝索斯在2008年致亚马逊公司股东的信中所做解释大意如下:如果我们能很好了解顾客需求,并深信这种需求是有长期价值。那么,我们的一贯做法是耐心探索,直至找到解决方案Υ庸丝托枨蟪龇⒌逆向工作法(Workingbackwards)与技能导向法(skills-forward)形成鲜明对比。

简单来说,逆向工作法,就是先研究需求,再根据需求创造相应工具;而技能导向法,则是手里拿着一个锤子,看什么都像钉子。

亚马逊云科技的造芯过程,某种程度就遵循了逆向工作法。以亚马逊云科技最早的硬件系统AmazonNitro为例。它的出现,就是为了解决Xen架构的虚拟化系统的资源消耗问题服务器中大概只有七成的资源能够提供给用户。而AmazonNitro针对虚拟化损耗,提出定制化硬件的思路,最终提供了裸机的性能。

而在与用户应用关系度更紧密的CPU层面,亚马逊云科技提供了针对不同负载优化的计算实例类型,来推动芯片的落地应用,从计算密集型、内存密集型,再到存储、IO敏感、吞吐敏感、网络延迟敏感等,一应俱全。

针对最新的AmazonGraviton4,亚马逊云科技就提供了AmazonEC2R8g内存优化性实例,可以提升客户运行高性能数据库、内存缓存、大数据分析等工作负载的效率。R8g实例相比当前一代R7g实例提供更大的实例大小,虚拟处理器(vCPU)以及内存均提升了3倍。这让用户可以处理更大量的数据、更大规模的工作负载、更快的获得运行结果,并降低总拥有成本。基于AmazonGraviton4的R8g实例现已提供预览版,并将在未来几个月推出正式可用版。

AmazonGraviton4的六边形性能分析,以及在AmazonGraviton3和AmazonGraviton4上运行的MySQL示例

据统计,目前由AmazonGraviton支持的AmazonEC2实例种类达150多个,已经构建的AmazonGraviton处理器数量超过200万个,并拥有超过5万客户,包括Datadog、DirecTV、Discovery、Formula1(F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP,在使用AmazonGraviton服务之后,成本降低了35%,且分析速度更快,同时减少了45%的碳排放量。

不过我猜,ArthurGoldstuck和很多人在内,在re:Invent期间更关注的一颗芯,会是AmazonTrainium系列,因为这是面向模型训练的芯片,而这部分,算力的瓶颈问题众人皆知。

此次大会发布的AmazonTrainium2,是一款专为基础模型和大模型而生的产品,为拥有数千亿甚至数万亿个参数的基础模型训练做了优化,相比第一代AmazonTrainium(发布于2020年12月),性能提升4倍,内存提升3倍,能效(每瓦性能)提升2倍,几乎全线超过摩尔定律所定义的范畴。

在这场发布的间隙,在采访中被问道造芯对于客户带去什么价值时,亚马逊云科技全球汽车及制造行业专业服务团队负责人JonAllen表示:

客户想要更快的、更便宜的东西,这是基本原则。无疑,这也是非常逆向工作法的一个回答。他以汽车业务举例,真正训练一辆自动驾驶汽车,起码得开车跑900万英里,如果用传统方式做数据训练,很多OEMs客户可能根本负担不起。

生成式AI大时代,有自研,但不影响联盟

虽然亚马逊云科技一直持续自研芯片,但是封闭并非这家公司的基因。而在生成式AI时代起决定性作用的另外一家巨头,英伟达创始人兼CEO黄仁勋穿着标志性皮衣,甚至作为此次re:Invent的首位上场的合作伙伴,与AdamSelipsky进行了一场对话,在对话中黄仁勋提到:

生成式AI正改变各种云端负载,为多元内容创作在底层注入加速计算动能。我们的共同目标是,为每个客户提供具有成本效益的先进生成式AI,为此英伟达与亚马逊云科技在整个计算堆栈展开合作,横跨AI基础设施、加速库(accelerationlibraries)、基础模型、以及生成式AI服务。

在真正的创新者面前,重要的不是是否有竞争,而是双方是否有能满足客户需求的能力,显然,亚马逊云科技和英伟达都在对方身上看到了这一点。

GPU和GPU之间用NVlink连接方式让我们的GPU可以直接存取CPU的记忆体,CPU可以直接使用GPU的记忆体,这是非常快地进行的。在更大的网络中,通过GraceHarper链接在一起。AmazonNitro可以将GH变成一颗巨大的虚拟化的GPU。这么多的实例,我们可以跟亚马逊云科技EFA兼容起来用,这也是非常快速的速度来运用的,所有单元都可以变成超级的集群。黄仁勋说道。

约13年前,亚马逊云科技是第一家把英伟达GPU芯片带到云上的云厂商,而接下来,双方还将扩大合作,主要包括四个方面:

亚马逊云科技成为第一家在云端配备英伟达GH200GraceHopper超级芯片的云厂商。英伟达GH200NVL32多节点平台为运用英伟达NVLink与NVSwitch技术连接32个GraceHopperSuperchips组成的实例。此平台将在AmazonElasticComputeCloud(AmazonEC2)实例上可用,与亚马逊云科技的网络相连,由虚拟化(AmazonNitroSystem)及超大规模集群(AmazonEC2UltraClusters)提供支持,让共同客户能扩展至数千个GH200超级芯片。

在亚马逊云科技平台上将推出英伟达DGXCloudNVIDIAAI训练即服务(AI-training-as-a-service)。此服务将是首个配置GH200NVL32的DGXCloud,为开发者提供单一实例中最多的共享内存。在亚马逊云科技上运行的DGXCloud将加速训练含有超过1兆参数的尖端生成式AI与大型语言模型。

英伟达与亚马逊云科技合作推动ProjectCeiba,构建全球最快的GPU驱动的AI超级计算机,这是一个配备GH200NVL32与AmazonEFA互连技术的大规模系统,该系统部署在亚马逊云科技上,为英伟达研发团队提供服务。该超级计算机将前所未有地配置16384颗英伟达H200超级芯片,能处理65exaflops(衡量超级计算机性能的单位,每秒浮点运算可达一百亿亿次)速度等级的AI运算,英伟达使用该超级计算机推动其全新生成式AI的创新。

亚马逊云科技将推出三款AmazonEC2实例:P5e实例配置英伟达H200TensorCoreGPUs,针对大规模与尖端生成式AI及HPC高性能运算工作负载;分别配置英伟达L4GPUs与英伟达L40SGPUs的G6与G6e实例,可运行包括AI微调、推理、绘图以及影片工作负载等广泛应用。G6e实例特别适用于开发3D工作流程、数字孪生、以及其他使用英伟达Omniverse的应用,用来连接与构建各种生成式AI的3D应用。

提到大模型,总有人认为这是巨头的游戏。但是JonAllen不这么看,对中小企业和创业公司来说,我们的AI芯片带给他们与宝马等汽车巨头相同的计算能力。十年前的硅谷,只有十几人的小公司根本无法负担高昂的算力(与大玩家竞争)。现在不一样了,AI芯片确实创造了新机会。

原文标题:云计算如何创芯:“逆向工作法”的性感之处

华章智能亮相2023工博会,助推工业智造高速发展!

端侧AI大模型很可能是为5G而生?

东方通:“技术中间件行业安全”双轮驱动

秦淮数据,“绿色”大型数据中心样本

云端时代,谁掌控了增长密码?

拐点已至!你的企业“云原生”了吗?

聊聊广汽本田云原生的心路历程

不需主机畅玩,云游戏时代还有多远?

专注IoT移动应用软件开发连接物联网智能时代


相关标签: 生成式AI云计算亚马逊云芯片智能制造

本文地址:https://www.uel.cc/article/6c5c1885248156697f9b.html

上一篇:TOB的腾讯,终于习惯挣慢钱了...
下一篇:太难了苹果再次栽跟头,自研梦要凉了?...

发表评论

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="https://www.uel.cc/" target="_blank">优亿链收录网_自动秒收录外链</a>