当搜索引擎巨头谷歌决定进军云计算领域时,最初的目标是提供一套完整的平台服务,完全抽象化底层硬件细节。然而,几年后,谷歌意识到企业客户尚未准备好购买完全覆盖底层硬件的全套平台服务,而是更倾向于选择低级别的基础设施服务,这些服务能提供更高的灵活性和更多的责任。因此,谷歌云不得不从英特尔、AMD和Nvidia等外部供应商处购买计算引擎,以扩充其服务器集群。
此外,英特尔过去对CPU的高利润率、AMD目前对CPU的高利润率,以及Nvidia对未来一段时间内GPU的持续高利润率,也使得谷歌不可避免地要开发自己的CPU和AI加速器,以降低其服务器集群的TCO(总拥有成本),尤其是在搜索引擎索引、广告投放、视频传输和多种形式的大数据分析等内部任务上。
因此,每当谷歌云活动举行时,我们都能获得更多关于谷歌购买或构建的计算引擎的信息。谷歌不像普通芯片供应商那样发布大量芯片和封装图片,也不发布大量的参数和规格。我们必须随着时间的推移逐步拼凑这些信息,并等待几年后的回顾性论文,才能了解谷歌现在到底在做什么。
这确实有点令人烦恼。但谷歌一直都很保密,因为IT绝对是该公司的竞争优势,但谷歌也有点矛盾,因为它既想炫耀自己的创新,这也是吸引公司下一轮创新者的原因。所有的超大规模企业和大型云建设者都是这样的。如果你有如此坚定的竞争对手,而且为了保护和发展你的业务而付出了如此多的代价,你也会这样做。
话虽如此,让我们来看看谷歌在其主题演讲中透露的有关其计算引擎的内容,首先从“Trillium”TPU v6自主研发的AI加速器开始。
早在6月份,我们就对Trillium加速器进行了分析,这似乎是很久以前的事了,它提供了我们能找到的有关谷歌第六代自主研发AI加速器的详细信息。正如我们当时指出的那样,关于TPU v6设备及其使用系统的疑问比答案多得多。但现在,我们有了一些推理和训练的相对性能数据,以及TPU v5e和TPU v6计算引擎之间的相对性价比。
曾在Google负责网络工作的Amin Vahdat,现任机器学习、系统和云AI总经理,在Google Cloud App Dev & Infrastructure Summit的主题演讲中重申了Trillium TPU的一些关键方面。TPUv6的峰值性能比其在产品线中(某种程度上)取代的TPU v5e高出4.7倍,HBM内存容量和带宽是其两倍,系统中相邻TPU之间的芯片间互连 (ICI) 带宽也是其两倍。
谷歌还提供了一些实际的训练和推理基准测试,这些基准测试很有用。以下是TPU v5e和TPU v6之间的训练比较:

在这五个不同的训练基准测试中,当前TPU与前一代TPU之间的平均性能提升为3.85倍,谷歌在其演示文稿中将其四舍五入为4倍。我们添加了每个基准测试在基准测试中获得的峰值性能份额,相对于芯片固有的4.7倍。
对于推理,谷歌仅展示了Trillium与TPU v5e在Stability AI的Stable Diffusion XL文本转图像模型上的性能,该模型于7月底刚刚发布,是最先进的:

该代码的新颖性可能是为什么TPU v5e和TPU v6之间的性能差异不到峰值性能4.7倍差异的三分之二的原因。
如果能看到一些不同的推理基准测试就更好了。例如,谷歌自己的JetStream推理引擎的基准测试结果在哪里?此外,TPU v5p与Trillium芯片的比较测试在哪里?
在其描述基准测试的博客中,谷歌确实说过:“我们设计TPU是为了优化性价比,Trillium也不例外,与v5e相比,其性价比提高了近1.8倍,与v5p相比,其性价比提高了约2倍。这使得Trillium成为我们迄今为止性价比最高的TPU。”
我们尝试使用这些数据来反向计算TPU v6的定价,但结果却不合理。首先,谷歌在这些价格/性能比较中谈论的是训练还是推理,它使用的是真实基准还是峰值理论性能。鉴于TPU v5p和TPU v5e实例的定价不同,很难想象它们在TPU v6带来的价值倍数上如此接近。我们四处寻找,发现尽管Trillium实例仅在技术预览中,但定价已经公布。因此,我们更新了我们的TPU功能和定价表。请看下面的表格:

如往常一样,红色斜体部分是我们在没有实际数据的情况下做出的估计。
需要注意的是,如果你签订的是三年合同而不是一年合同,那么基本上你可以免费获得第三年的使用,这是一年价格的一半。这似乎相当慷慨。
从该表中可以看出,TPU v5p的pod尺寸比TPU v5e大得多,HBM内存带宽也高得多,在INT8和BF16浮点精度下的性能只有TPU v6的一半。据我们所知,TPU v6 pod尺寸在单个图像中为256个加速器,在INT8精度下峰值为474 petaops。Vahdat证实了这一点,然后推断出了pod之外的情况。
“Trillium可以从单个256芯片、高带宽、低延迟、ICI域扩展到由每秒多PB的数据中心网络互连的楼宇级超级计算机中的数万个芯片,”Vahdat解释道。“Trillium在单个集群中提供前所未有的91 exaflops,是我们使用上一代TPU构建的最大集群的四倍。客户喜欢我们的Trillium TPU,我们看到对第六代产品的需求空前高涨。”我们不确定他指的是BF16精度下的“exaflops”,还是INT8精度下的“exaops”,并像我们在本报道中最初所做的那样说“exaflops”。
考虑到TPU v6实例仅处于技术预览阶段,所以给予赞扬的肯定是少数非常重要的客户。
Vahdat还展示了一些Trillium设备的图片。这是一块TPU v6系统板,上面有四个TPU v6计算引擎:

这里有一些这种Trillium铁的架子,架子前面露出一个暗示性的节点。

现在,转向Nvidia GPU基础设施,Google Cloud必须构建该基础设施,以便公司可以在云基础设施上部署Nvidia AI Enterprise软件堆栈,并且Google和Nvidia也在对其进行调整,以运行Google首选的JAX框架(以Python编写)和其XLA跨平台编译器,该编译器可以流畅地使用TPU和GPU。
Google已经推出了基于Nvidia “Hopper” H100 GPU加速器的A3和A3 Mega实例,这些加速器具有80 GB和96 GB的HBM3内存,而Vahdat则借此机会预览了即将在Google Cloud上推出的基于Hopper H200 GPU的全新A3 Ultra实例,该实例具有更大的141 GB HBM3E内存。A3 Ultra实例将于“今年晚些时候”推出,它们将包括Google自己的“Titanium”卸载引擎和Nvidia ConnectX-7 SmartNIC,后者将使用Google的RoCE以太网交换调整,以3.2 Tb/秒的带宽将集群中的GPU互连起来。
Vahdat并未对Nvidia已发布和即将推出的“Blackwell” GPU透露太多信息,但表示该公司“拥有几个正常运行的Nvidia GB200 NVL72机架,并正在积极致力于将这项技术带给我们的客户”。
Vahdat还补充说,基于Google自己的“Cypress”Axion Arm服务器CPU的C4A实例现已普遍可用。Google早在4月就宣布了第一款Axion芯片,但显然还有两款芯片正在研发中,另一款代号为“Maple”,基于Marvell和Cypress授权的Neoverse V2内核技术。Axion处理器还与Titanium卸载引擎配对。
谷歌表示,C4A实例在SPEC整数基准测试中的性价比比“当前一代基于X86的实例”高出64%,能源效率比“当前一代基于X86的实例”高出60%,但没有具体说明这些实例是什么。他补充说,C4A实例的性能比其他云上的其他Arm实例高出10%。他没有说明Axion处理器的性能与英特尔“Granite Rapids”Xeon 6或AMD“Turin”Epyc 9005 CPU相比如何。
为了好玩,谷歌展示了这张性价比图表:

到目前为止,我们还不知道Axion C4A实例的具体配置,因此这里是C4A实例标准版的速度和配置,每个vCPU有4 GB内存:

C4A实例有高CPU配置,每个vCPU有2 GB内存,也有高内存配置,每个vCPU有8 GB内存。正如细则所述,Axion芯片中的这些V2核心不支持同时多线程,因此核心就是线程,也就是vCPU。
以下是Google北弗吉尼亚 (US-East-4) 地区标准实例的每小时定价:

C4A实例已在美国中部1(爱荷华州)、美国东部4(弗吉尼亚)、美国东部1(南卡罗来纳州)、欧盟西部1(比利时)、欧盟西部4(荷兰)、欧盟西部3(法兰克福)和亚洲东南部1(新加坡)地区推出;预计很快将在其他地区推出。
我们期待对在各个云中运行的AWS Graviton 4、Google Cloud C4A和Microsoft Azure Cobalt 100 Arm服务器芯片进行比较。