草根蜀财网

网站首页 动态 > 综合精选 > 正文

AWS 和 Nvidia 打造了一台拥有 16,384 个超级芯片的超级计算机

2023-12-01 15:56:45 综合精选 来源:
导读 尽管许多公司正在开发人工智能 (AI) 工作负载的加速器,但 Nvidia 的 CUDA 平台目前在 AI 支持方面是无与伦比的。因此,对基于 Nv

尽管许多公司正在开发人工智能 (AI) 工作负载的加速器,但 Nvidia 的 CUDA 平台目前在 AI 支持方面是无与伦比的。因此,对基于 Nvidia 的人工智能基础设施的需求很高。为了解决这个问题,Amazon Web Services 和 Nvidia 建立了战略合作伙伴关系, 根据该合作伙伴关系,AWS 将为生成人工智能提供基于 Nvidia 的基础设施。两家公司将在几个关键项目上进行合作。

AWS 首席执行官 Adam Selipsky 表示:“今天,我们为图形、游戏、高性能计算、机器学习以及现在的生成式人工智能等工作负载提供最广泛的 Nvidia GPU 解决方案。” “我们继续与 Nvidia 合作创新,将下一代 Nvidia Grace Hopper Superchips 与 AWS 的 EFA 强大网络、EC2 UltraClusters 的超大规模集群以及 Nitro 的高级虚拟化功能相结合,使 AWS 成为运行 GPU 的最佳场所。”

Ceiba 项目是此次合作的基石,旨在创建世界上最快的 GPU 驱动的 AI 超级计算机,由 AWS 托管,并专门为 Nvidia 提供。这个雄心勃勃的项目将集成 16,384 个 Nvidia GH200 超级芯片(使用 GH200 NVL32 解决方案,包含 32 个 GH200 GPU 和 19.5 TB 统一内存),这些芯片将提供惊人的 65 个“AI ExaFLOPS”处理能力。这台超级计算机用于英伟达的生成式人工智能研发项目。

AWS 上托管的 Nvidia DGX 云是此次合作的另一个主要组成部分。该人工智能培训即服务平台是第一个将 GH200 NVL32 机器与 19.5 TB 统一内存结合在一起的商用实例。该平台为开发人员提供了单个实例中可用的最大共享内存,显着加速了高级生成人工智能和大型语言模型的训练过程,可能超过 1 万亿个参数。

此外,AWS将率先提供 基于Nvidia GH200 Grace Hopper Superchips的基于云的AI超级计算机。这种独特的配置将使用 NVLink 连接每个实例 32 个 Grace Hopper Superchip。它将扩展到数千个 GH200 Superchips(和 4.5 TB HBM3e 内存),与 Amazon 的 EFA 网络连接,并得到高级虚拟化(AWS Nitro System)和超大规模集群(Amazon EC2 UltraClusters)的支持。

此次合作还将推出 新的 Nvidia 支持的 Amazon EC2 实例。这些实例将配备 H200 Tensor Core GPU,具有高达 141 GB 的 HBM3e 内存,适用于大规模生成式 AI 和高性能计算 (HPC) 工作负载。此外,G6 和 G6e 实例分别配备 NvidiaL4 和 L40S GPU,专为从 AI 微调到 3D 工作流程开发等广泛应用而设计,并利用 Nvidia Omniverse 创建支持 AI 的 3D 应用程序。

最后,此次合作将引入 Nvidia 的先进软件 ,以加速 AWS 上的生成式 AI 开发。其中包括用于创建聊天机器人和摘要工具的 NeMo LLM 框架和 NeMo Retriever 以及用于加速药物发现流程的 BioNeMo。


版权说明: 本文由用户上传,如有侵权请联系删除!


标签: