初創公司利用 22,000 個 NVIDIA H100 建立超級電腦叢集!

- Arthur Chan - 2023-07-07

由前 DeepMind 主管兼受到 Microsoft 和 NVIDIA 支持的初創公司 Inflection AI 最近成功籌集到 13 億美元的資金和雲端信用。該公司計劃利用這筆資金建立一個超級電腦叢集,集成多達 22,000 張 NVIDIA H100 GPU,其峰值理論計算性能可與 Frontier 超級電腦相媲美。

Inflection AI 的共同創始人 Mustafa Suleyman 表示:「我們將建立一個由約 22,000 張 H100 組成的叢集。這相當於 GPT-4 訓練所需計算量的三倍。速度和規模將使我們能夠打造出一個獨特的產品。」

NVIDIA H100|圖片來源:NVIDIA

一個擁有 22,000 個 NVIDIA H100 計算 GPU 的叢集在理論上可以達到 1.474 exaflops 的 FP64 性能(使用 Tensor 核心)。使用 CUDA 核心運行通用 FP64 代碼時,峰值吞吐量僅為 0.737 FP64 exaflops。與此同時,全球最快的超級電腦 Frontier 的峰值計算性能為 1.813 FP64 exaflops(矩陣運算為 3.626 exaflops)。目前,這個計劃中的新電腦位居第二,但在 El Capitan 和 Aurora 完全啟動後可能降至第四。

即使 FP64 性能對許多科學工作負載很重要,但該系統可能會首先面向人工智能方面。FP16/BF16 的峰值吞吐量為 43.5 exaflops,FP8 的峰值吞吐量為 87.1 exaflops。而搭載 37,888 個 AMD Instinct MI250X 的 Frontier 超級電腦的 BF16/FP16 的峰值吞吐量為 14.5 exaflops。

NVIDIA 的 DGX GH200 AI 超級電腦|圖片來源:NVIDIA

目前還不清楚這個叢集的成本,但考慮到 NVIDIA H100 計算 GPU 的零售價格超過每個單元 30,000 美元,我們預計該叢集的 GPU 成本將達到數億美元。加上所有的機架伺服器和其他硬體,這將占用 13 億美元的大部分資金。

Inflection AI 成立僅一年後,其估值已達到約 40 億美元。該公司目前唯一的產品是一款名為 Pi 的 AI 聊天機器人,擁有生成式 AI 技術,類似於 ChatGPT,旨在提供計劃、排程和信息收集等個人助理功能。Pi 能夠通過對話與用戶交流,人們可以提出問題並提供反饋。Inflection AI 為 Pi 設定了具體的用戶體驗目標,例如提供情感支持。

目前,Inflection AI 在 Microsoft Azure 雲端上運營一個電腦叢集,擁有 3,584 個 NVIDIA H100 計算 GPU。而計劃中的超級電腦叢集的性能將大約是目前基於雲端解決方案的六倍。

資料來源:tomshardware