Project Ceiba

在雲端建構全球最大型的 AI 超級電腦

在雲端建構全球最大型的 AI 超級電腦

Project Ceiba 是 AWS 和 NVIDIA 之間的突破性合作,旨在透過建置雲端中最大的 AI 超級電腦來突破人工智慧 (AI) 的界限。這款尖端超級電腦專門託管於 AWS 上,將為 NVIDIA 在 AI 領域的研究和開發工作提供動力。

推動尖端創新

NVIDIA 研發團隊將運用 Project Ceiba 的巨大力量來推動各種尖端領域的進步,包括大型語言模型 (LLM)、圖形 (影像、視訊和 3D 生成)、模擬、數位生物學、機器人、自動駕駛汽車、NVIDIA Earth-2 的氣候預測等。這項突破性的倡議將推動 NVIDIA 推動生成式 AI 的工作,塑造人工智慧及其在不同領域的應用程式的未來。

設計模式

可擴展的 AI 基礎設施

Project Ceiba 將透過 NVIDIA DGX Cloud 架構提供。DGX Cloud 是開發人員的端對端、可擴展的 AI 平台,提供基於最新 NVIDIA 架構建構的可擴展容量,並在每一層與 AWS 共同設計。DGX Cloud 將於今年稍晚在 AWS 上推出,AWS 將成為第一家提供基於 NVIDIA Blackwell 架構的 GB200 的 DGX Cloud 的雲端服務供應商。Project Ceiba 建立在 AWS 專門的 AI 基礎架構上,旨在提供如此規模超級電腦所需的巨大規模、增強的安全性和無與倫比的效能。

設計模式

AI 處理的每秒浮點運算次數,比目前全球最快的超級電腦 Frontier 強大約 375 倍

每個超級晶片可實現閃電般快速的資料傳輸與處理

NVIDIA Blackwell GPU,首屈一指的超級電腦

功能

此聯合專案建立了若干業界定義的里程碑:
Project Ceiba 的組態包括 20,736 個 NVIDIA GB200 Grace Blackwell 超級晶片。這款首屈一指的超級電腦採用 NVIDIA 最新的 GB200 NVL72 製造,這是一個液體冷卻機架式系統,配備第五代 NVLink,可擴展至 20,736 個 Blackwell GPU,連接至 10,368 個 NVIDIA Grace CPU。這部超級電腦能夠處理 414 EFLOPS 的 AI,比目前全球最快速的超級電腦 Frontier 強大約 375 倍。如果整個世界目前的超級運算容量合併,不到 414 EFLOPS 所展示運算能力的 1%。全面來看,這相當於全球超過 60 億部最先進的筆記型電腦同時工作。從更長遠的角度來看,如果地球上每個人每秒執行一次計算,需要他們超過 1,660 年的時間,才能與 Project Ceiba 在短短一秒內實現的結果相當。

Project Ceiba 是首個善用第四代 AWS Elastic Fabric Adapter (EFA) 聯網提供支援的大規模擴展功能的系統,每個超級晶片提供前所未有的 1,600 Gbps 低延遲、高頻寬聯網輸送量,實現如閃電般快速的資料傳輸與處理。 

液冷技術已存在多年。遊戲玩家將其用於他們的個人遊戲電腦。雖然這不是一項新技術,但 AWS 在 Project Ceiba 之前曾有意選擇空氣冷卻而不是液體冷卻,因為它能夠實現成本效益。為了應對功率密度方面的挑戰,並在 Project Ceiba 中提供無與倫比的運算能力,AWS 開始在資料中心大規模使用液體冷卻,以實現更高效、永續和高效能的運算解決方案。

Project Ceiba 將整合業界領先的安全功能,旨在保護最敏感的 AI 資料。NVIDIA 的 Blackwell GPU 架構在整合了 AWS Nitro System 與 EFA 技術的 GPU 之間提供安全的通訊,將為生成式 AI 工作負載提供安全的端對端加密資料。此聯合解決方案提供敏感 AI 資料的解密並載入 GPU,同時保持與基礎設施運營商完全隔離。實現這一切的同時,還會驗證用於處理資料的應用程式的真實性。使用 Nitro System,客戶能夠以加密方式驗證採用 AWS Key Management System (KMS) 的應用程式,並且僅在必要的檢查通過時才會解密資料,從而確保對流經生成式 AI 工作負載的資料進行端對端加密。如需進一步了解,請閱讀這篇部落格並造訪安全 AI 網頁