什麼是 SageMaker HyperPod?
Amazon SageMaker HyperPod 消除了建置和最佳化機器學習 (ML) 基礎設施所涉及的無差異化繁重工作。該服務已預先設定 SageMaker 的分散式訓練程式庫,可自動將訓練工作負載分發至成千上萬個 AI 加速器,因此可平行處理工作負載,從而提高模型效能。SageMaker HyperPod 可透過定期儲存檢查點,來確保您能夠不間斷持續 FM 訓練。發生硬體故障時,它會自動偵測、修復或取代故障執行個體,並從上次儲存的檢查點繼續訓練,無需手動管理此程序。彈性環境可讓您在分散式環境中訓練模型數週或數月,而不會中斷,從而節省高達 40% 的訓練時間。SageMaker HyperPod 還可高度自訂,讓您能夠有效地執行和擴展 FM 工作負載,從大規模訓練到推論,輕鬆地在不同工作負載之間共用運算容量。