亚马逊云科技与英伟达扩展合作加速生成式AI创新

3月19日亚马逊云科技和英伟达(NVIDIA)宣布，NVIDIA 在 GTC 2024 开发者大会上最新发布的 NVIDIA Blackwell 架构 GPU 即将登陆亚马逊云科技。亚马逊云科技将提供 NVIDIA GB200 Grace Blackwell 超级芯片和 B100 Tensor Core GPU，继续扩展两家公司长期以来的战略合作，为客户提供安全和先进的基础设施、软件和服务，帮助客户解锁新的生成式 AI 能力。

此举整合了 NVIDIA 和亚马逊云科技各自的最优技术，包括 NVIDIA 最新的多节点系统，采用下一代 NVIDIA Blackwell 架构 GPU 和 AI 软件、Amazon Nitro 系统和 Amazon KMS 的高级安全性、Elastic Fabric Adapter (EFA) 的 petabit 级网络规模，以及 Amazon EC2 UltraCluster 的超大规模集群。双方共同提供的云基础设施和计算芯片，对比上一代 Amazon EC2 上的 NVIDIA GPU，客户能够更快、大规模且低成本地构建和运行实时推理的万亿参数大语言模型(LLMs)。

　一、加速超万亿参数级大语言模型训练，提升推理性能

亚马逊云科技将提供 GB200 NVL72 配置的 NVIDIA Blackwell 架构。它配备 72 颗 Blackwell GPU 和 36 颗 Grace CPU，通过第五代 NVIDIA NVLink™ 互连。当与亚马逊云科技强大的 EFA 网络、Amazon Nitro 高级虚拟化系统和 Amazon EC2 UltraClusters 超大规模集群等技术结合时，客户能够轻松扩展至数千个 GB200 超级芯片。NVIDIA Blackwell 在亚马逊云科技上的应用，使得该架构在应对资源密集型和数万亿参数语言模型等推理工作负载加速方面实现了巨大飞跃。

基于此前搭载 NVIDIA H100 的 Amazon EC2 P5 实例的成功(这些实例还通过 Amazon EC2 Capacity Blocks for ML 功能短期提供给客户)，亚马逊云科技计划提供配备新 B100 GPUs 的 Amazon EC2 实例，并支持在 Amazon EC2 UltraClusters 中部署以加速超大规模生成式 AI 的训练和推理。GB200 也将在 NVIDIA DGX™ Cloud 上可用，这是一个在亚马逊云科技上双方共同开发的 AI 架构，为企业开发者提供了构建和部署先进生成式 AI 模型所需的专用基础设施和软件。在亚马逊云科技上推出的基于 Blackwell 的 DGX Cloud 实例将加速前沿生成式 AI 和超过 1 万亿参数的大语言模型的开发。

二、Amazon Nitro 系统、Amazon KMS、EFA 加密与 Blackwell 加密技术紧密集成

随着 AI 技术应用越来越广泛，企业需要确信，在整个训练流程中，他们的数据都得到了安全的处理。保护模型权重的安全至关重要，模型权重是模型在训练过程中学习到的参数，对于模型做出预测的能力至关重要。确保模型权重的安全对保护客户的知识产权、防止模型被篡改以及维护模型的完整性都是非常重要的。

亚马逊云科技的 AI 基础设施和服务已经实现了安全特性，使客户能够控制其数据，并确保数据不会与第三方模型提供者共享。Amazon Nitro 系统和 NVIDIA GB200 的结合将能够阻止未授权个体访问模型权重，从而把 AI 安全性提升到新的高度。GB200 支持对 GPU 之间 NVLink 连接进行物理加密，以及对 Grace CPU 到 Blackwell GPU 的数据传输进行加密，同时 EFA 也能够对服务器之间的分布式训练和推理过程的数据进行加密。GB200 还将受益于 Amazon Nitro 系统，该系统将主机 CPU/GPU 的 I/O 功能卸载至专门的硬件上，以提供更加一致的性能，其增强的安全性可以在客户端和云端全程保护客户的代码和数据在处理过程中的安全。这一独有的功能已经获得了领先的网络安全公司 NCC Group 的独立验证。

通过在 Amazon EC2 上使用 GB200，亚马逊云科技将使客户能够使用 Amazon Nitro Enclaves 和 Amazon KMS，在其 EC2 实例旁创建一个可信执行环境。Amazon Nitro Enclaves 允许客户使用 Amazon KMS 控制下的密钥来加密他们的训练数据和权重。从 GB200 实例内部可以加载安全区(Enclave)，并且可以直接与 GB200 超级芯片通信。这使得 Amazon KMS 能够以加密安全的方式直接与安全区通信，并直接传递密钥材料。然后，安全区可以将该材料传递给 GB200，这样做能够保护客户实例中的数据，防止亚马逊云科技操作人员访问密钥或解密训练数据或模型权重，从而赋予客户对其数据的无与伦比的控制权。

三、　“Ceiba 项目”利用 Blackwell 在亚马逊云科技上推动 NVIDIA 未来生成式 AI 创新

在 re:Invent 2023 上宣布的“Ceiba 项目”，是 NVIDIA 与亚马逊云科技合作建造的世界上最快的 AI 超级计算机之一。这台专为 NVIDIA 自身的研究和开发而设的超级计算机，独家托管在亚马逊云科技上。这台首创的拥有 20,736 颗 GB200 GPU 的超级计算机，采用新型 NVIDIA GB200 NVL72 配置构建，其特有的第五代 NVLink 将连接 10,368 颗 NVIDIA Grace CPU。系统通过亚马逊云科技第四代 EFA 网络进行扩展，为每个超级芯片提供高达 800 Gbps 的低延迟、高带宽网络吞吐量——能够处理高达 414 exaflops 的 AI 计算量，与之前计划在 Hopper 架构上构建 Ceiba 相比，性能提升了 6 倍。

NVIDIA 的研发团队将利用 Ceiba 推进大语言模型、图形(图像/视频/3D 生成)与仿真、数字生物学、机器人技术、自动驾驶汽车、NVIDIA Earth-2 气候预测等领域的 AI 技术，以帮助 NVIDIA 推动未来生成式 AI 的创新。

四、推动生成式 AI 应用开发及医疗健康与生命科学领域的应用进展

亚马逊云科技与 NVIDIA 联手，通过 Amazon SageMaker 与 NVIDIA NIM 推理微服务的整合，提供了高性能、低成本的生成式 AI 推理解决方案。该服务作为 NVIDIA AI 企业版的一部分提供。客户可以利用这一组合在 Amazon SageMaker 中快速部署和运行已预编译且对 NVIDIA GPU 进行优化的基础模型，缩短生成式 AI 应用的推出时间。

亚马逊云科技与 NVIDIA 还在利用计算机辅助的药物发现领域进行合作拓展，推出了新的 NVIDIABioNeMo™ 基础模型，用于生成化学、蛋白质结构预测，以及理解药物分子与目标的相互作用。这些新模型将很快在 Amazon HealthOmics 上提供，这是一个专为帮助医疗保健和生命科学组织存储、查询和分析基因组、转录组及其他组学数据而设计的专用服务。

Amazon HealthOmics 和 NVIDIA 医疗保健团队还合作推出生成式 AI 微服务，以推进药物发现、医疗技术和数字健康领域的发展。该服务提供一个新的 GPU 加速的云端服务目录，涵盖生物学、化学、成像和医疗保健数据，以便医疗企业能够在亚马逊云科技上利用生成式 AI 的最新成果。

(本文由美国主机侦探原创，转载请注明出处“美国主机侦探”和原文地址！)