Amazon FSx for Lustre 客戶

Adobe

Adobe 成立於 40 年前，基於打造改變世界之創新產品的簡單想法，Adobe 提供突破性技術，讓每個人都能夠想像、創造並將任何數位體驗帶入生活中。

挑戰：Adobe 決定訓練自己專為創意使用案例量身打造的基礎生成式 AI 模型，而不是依賴開放原始碼模型。

解決方案：Adobe 在 AWS 上建立 AI 超級高速公路，以建置 AI 訓練平台和資料管道，進而迅速地反覆運作模型。Adobe 使用 Amazon Elastic Compute Cloud (Amazon EC2) P5、採用 NVIDIA GPU 技術的 P4d 執行個體、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Block Store (Amazon EBS) 和 Amazon Elastic Fabric Adapter (EFA) 來建置其解決方案。Adobe 還使用 Amazon Simple Storage Service (Amazon S3) 來充當資料湖和主要儲存器，以儲存大量資料。Adobe 使用 Amazon FSx for Lustre 高效能檔案儲存來快速存取資料，並確保 GPU 資源絕不會閒置。

人們似乎都覺得我會建立自己的 AI 雲端，但與 AWS 建立合作夥伴關係，讓我們能夠專注於實現差異化

Alexandru Costin，Paytm 生成式 AI 和 Sensei 副總裁

閱讀 Adobe 案例研究。 »
LG AI Research

LG AI Research LG AI Research 與世界一流的 AI 專家共同合作，透過提供最佳的研究環境並運用最先進的 AI 技術，致力於帶領下一個 AI 時代，與您一起實現充滿前景的未來。

挑戰：LG AI Research 必須在一年內將其基礎模型 EXAONE 部署到生產環境裡。EXAONE 的含義是「每個人的專家級 AI」，是一個使用圖像和文字資料的多模態模型，具有 3,000 億個參數。

解決方案：LG AI Research 使用 Amazon SageMaker 訓練其大規模基礎模型，並使用 Amazon FSx for Lustre 將資料分發到各執行個體以加速模型訓練。LG AI Research 必須在一年內將其基礎模型 EXAONE 部署到生產環境中。由於不再需要單獨的基礎結構管理團隊，LG AI Research 順利在一年內部署 EXAONE，也將成本降低了約 35%。

閱讀 LG AI Research 案例研究。 »
Paige

Paige 是領先業界的數位病理學轉型供應商，提供全面、採用 AI 提供技術支援的 Web 型解決方案，為癌症診斷帶來效率和信心。

挑戰：Paige 的內部部署解決方案已達上限。他們的目標是訓練 AI 和 ML 模型來協助癌症病理學。Paige 發現，他們的運算容量越多，就可以更快訓練模型並幫助解決診斷問題。

解決方案：為了執行 ML 訓練工作負載，Paige 選擇了採用 NVIDIA A100 Tensor 核心 GPU 提供支援的 Amazon EC2 P4d 執行個體，這些執行個體可為雲端 ML 訓練和 HPC 應用程式提供高效能。Paige 使用 Amazon FSx for Lustre，這是在熱門高效能檔案系統上建置的全受管的共用儲存空間。該公司將此服務與其部分 Amazon S3 儲存貯體連接，協助開發團隊處理數以 PB 計的 ML 輸入資料，而無需在高效能檔案系統上手動預先設置資料。AWS 解決方案的結果是，Paige 可以使用 AWS 機器學習基礎結構來訓練 10 倍數量的內部部署資料。 Paige 也運用了 Amazon EC2 和 Amazon FSx for Lustre，讓內部工作流程加快 72%。

透過將 Amazon FSx for Lustre 連接到 Amazon S3 的方式，我們可以在內部部署基礎結構中訓練嘗試過的 10 倍資料量，不會有任何麻煩。

Paige 職員 AI 工程師 Alexander van Eck

閱讀案例研究：Paige 運用 Amazon EC2 P4d 執行個體建置的混合式 ML 工作流程促進癌症治療。 »
Toyota

Toyota Research Institute 選擇 FSx for Lustre 來縮短物件辨識機器學習訓練時間。

Toyota Research Institute (TRI) 從自動駕駛車輛 (AV) 試駕中收集和處理大量感應器資料。每個訓練資料集都會暫存在內部部署 NAS 裝置中，並傳輸到 Amazon Simple Storage Service (Amazon S3)，之後才在功能強大的 GPU 運算叢集上進行處理。TRI 需要高效能檔案系統與運算資源配對、加速機器學習模型訓練，並縮短資料科學家產生洞察的時間。

我們需要為機器學習訓練資料集準備平行檔案系統，並選擇 Amazon FSx for Lustre，因為其可用性和耐用性比舊版檔案系統產品更高。與 AWS 服務 (包括 S3) 的整合也使 Amazon FSx for Lustre 成為高效能檔案儲存的首選。

Toyota Research Institute 軟體工程師 David Fluck
Shell

Shell 提供各式各樣的能源選擇組合，從石油、天然氣和石油化學製品，到風力、太陽能和氫氣；Shell 很榮幸能為客戶提供生活所需的能源。

挑戰：Shell 依賴 HPC 進行模型建置、測試和驗證。從 2020 年到 2022 年，GPU 平均使用率低於 90%，導致專案延遲，也對新演算法的實驗造成限制。

解決方案：Shell 透過 Amazon EC2 叢集和 Amazon FSx for Lustre 拓展到雲端，藉此擴增其內部部署運算容量。此解決方案讓 Shell 能夠快速縱向擴展和縮減規模，並且僅在需要時購買額外的運算容量。Shell 的 GPU 現在已充分利用，讓運算成本得以降低，並加速機器學習模型測試。
Storengy

ENGIE Group 旗下子公司 Storengy 是一家領先的天然氣供應商。該公司為全球企業提供天然氣儲存、地熱解決方案、無碳能源生產和儲存技術。

為了確保產品妥善儲存，Storengy 使用高科技模擬器來評估地下天然氣儲存，這個過程需要大量使用高效能運算 (HPC) 工作負載。該公司還使用 HPC 技術來執行天然氣探索和勘探作業。

由於 AWS，我們擁有可擴展性和高可用性，可以一次執行數百個模擬。此外，該解決方案會自動擴展或縮減以支援尖峰工作負載期間，這表示 HPC 環境都在我們的掌控之中。

Storengy 工程師 Jean-Frederic Thebault
Smartronix

Smartronix 利用 FSx for Lustre，為其 SAS Grid 部署提供可靠的高效能。

Smartronix 為許多全球領先的商業和聯邦組織提供雲端解決方案、網路安全、系統整合、全球 C5ISR 和資料分析，以及具備以任務為中心的工程設計能力。Smartronix 依賴 SAS Grid 分析和提供全國的新冠疫情每日統計資料，並發現對自我管理的平行檔案系統進行管理和保護的難度很高。

與 AWS 合作並利用 FSx for Lustre 等受管解決方案，讓我們能夠為客戶提供更好的服務，FSx for Lustre 等受管解決方案的可用性更佳，成本比自我管理的檔案系統低 29%。

Smartronix 資深解決方案架構師 Rob Mounier
Netflix

Netflix 是一種串流服務，提供各式各樣獲獎肯定的電視節目、電影、動畫、紀錄片等內容。

挑戰：Netflix 為媒體 ML 模型採用大規模的分散式訓練，提供數千部影片和數百萬片段的後製縮圖、VFX 和預告片製作。過去，由於跨節點複製和 40% GPU 閒置時間，Netflix 遭遇了冗長的等待時間。

解決方案：Netflix 重新架構了資料載入管道，並透過預先運算所有視訊/音訊片段的方式來提高其效率。Netflix 還選擇了 Amazon UltraClusters (EC2 P4d 執行個體) 來加速運算效能。Amazon FSx for Lustre 的效能使得 Netflix 可以讓 GPU 滿載，幾乎消除了 GPU 閒置時間。現在，透過預先運算和 FSx for Lustre，Netflix 的效能提升了 3-4 倍，將模型訓練時間從一週縮短為 1-2 天。

觀看影片：使用 Amazon FSx for Lustre，針對媒體 ML 模型進行大規模分散式訓練。 »
Hyundai

Hyundai Motor Company 是全球備受矚目的知名汽車製造商，其品牌汽車出口到 200 多個國家。

挑戰：語義分割是經常在自動駕駛中使用的演算法其中之一，這是使用物件類別來註釋影像的每個像素的一種任務。這些類別可以是道路、人、汽車、建築、草木，天空等等。Hyundai 測試精確度，並且會收集其他影像來修正特定情況中不充分的預測效能。然而，這可能是一個挑戰，因為通常沒有足夠的時間準備所有的新資料，同時也很難有足夠的時間來訓練模型並符合預定的截止日期。

解決方案：Hyundai 選擇了 Amazon SageMaker 來自動化模型訓練，並且選擇了 Amazon SageMaker 程式庫進行資料平行處理，從單一 GPU 轉移到分散式訓練。他們選擇 Amazon FSx for Lustre 來訓練模型而無須等待資料副本。他們也選擇了 Amazon S3 作為他們的永久資料儲存方式。Hyundai 透過 8 個 GPU 執行個體 (或總共 64 個 GPU) 來實現高達 93% 的擴展效率。FSx for Lustre 使 Hyundai 能夠以零等待時間，針對相同的資料執行多項訓練工作和實驗。

閱讀客戶部落格文章 »
Rivian

Rivian 的使命是讓世界永遠大膽冒險。我們相信可以透過更負責的方式探索世界，並決心使朝向永續運輸的過渡變成令人興奮的過程。

為了滿足快速的工程設計時間表，並降低對實體設計原型的需求，電動車製造商 Rivian 仰賴先進的建模和模擬技術。具備高度運算效能的模擬技術讓工程師得以測試新的概念，並可加快設計上市的腳步。

與 Amazon 的合作讓 Rivian 得以專注於永續的車輛開發和交付，而不是 IT。透過 Amazon，關鍵開發應用程式的執行速度比內部部署更快，包括：在 Elements 上快 56%、在 Siemens 上快 35% 以及在 Ansys 上快 20%。

Rivian 資訊長 Madhavi Osanaka

閱讀 Rivian 案例研究 »
DENSO

Denso 為先進駕駛輔助系統 (ADAS) 開發影像感應器，這套系統可透過停車和更換車道等功能來協助駕駛。

挑戰：為了開發 ADAS 影像辨識所需的 ML 模型，DENSO 在其內部部署環境中建置了 GPU 叢集。但是，多位 ML 工程師共用有限的 GPU 資源，此情況影響了生產力，尤其是在新產品發布前的忙碌期間。

解決方案：透過採用 Amazon SageMaker 和 Amazon FSx for Lustre，Denso 能夠縮短資料採集、模型開發、學習和評估時間，藉此加速 ADAS 影像識別模型的建立。

「轉移到雲端的作法，在人工智慧和 ML 領域會持續加速。我相信，隨著我們繼續新增功能，AWS 會繼續為我們提供支援。」

DENSO 總經理 Kensuke Yokoi

閱讀 Denso 案例研究。 »
Joby Aviation

Joby Aviation 使用 AWS 徹底改變運輸。

挑戰：Joby 工程師依賴高效能運算 (HPC) 來執行數千個複雜、運算密集運算流體動力學 (CFD) 模擬，這些模擬每個都使用數百個 CPU 核心，可能需要數小時才能完成。

解決方案：使用 Amazon Elastic Compute Cloud (Amazon EC2) 和 Amazon FSx for Lustre，與內部部署高效能運算基礎設施相比，Joby 可以更快地從 CFD 工作負載取得結果。

當嘗試一次執行數十個模擬時，一次讀取和寫入的資料達數 GB，而這減慢了所有項目的速度。FSx for Lustre 可排除這些容量問題。我們現在可以輕鬆地增加硬碟的大小。

Joby Aviation 航空力學主管 Alex Stoll

閱讀 Joby Aviation 案例研究 »
T-Mobile

T-Mobile 實現了每年省下 150 萬美元的目標，並使用 Amazon FSx for Lustre，將 SAS Grid 工作負載速度提升兩倍。

挑戰：T-Mobile 在自我管理的 SAS Grid 工作負載方面遇到了高額管理開銷費用和效能困難。

解決方案：T-Mobile 部署的 Amazon FSx for Lustre 是全受管的高效能檔案系統，可移轉和擴展其 SAS Grid 基礎設施。T-Mobile 利用 Amazon FSx 和 S3 的緊密整合，降低儲存開銷並最佳化營運。

Amazon FSx for Lustre 協助我們將 SAS Grid 工作負載的速度提高了一倍，將總體擁有成本降低了 83%，並完全消除我們的營運負擔。與 AWS 合作讓我們能夠專注於自己最擅長的事情、為客戶開發創新產品，同時仰賴 FSx 的尖端儲存功能，以及 AWS 世界級的託管功能。

T-Mobile 軟體開發資深經理 Dinesh Korde
Netflix

Netflix 的第四季度劇集「皇冠」的製作遇到了前所未有的挑戰，在後期製作 VFX 工作計劃開始時，全球因為新冠肺炎疫情而封鎖。透過採用 AWS 上的以雲端為基礎的工作流程 (包含提高輸送量的 Amazon FSx Lustre 檔案伺服器)，由 10 位藝術家組成的 Netflix 內部 VFX 團隊可以在僅 8 個月內無縫完成本季 10 集劇集的超過 600 場 VFX 拍攝，全部工作在遠端完成。

閱讀「雲端中的皇冠」部落格文章 »
Maxar

Maxar 使用 AWS 提供預測的速度比天氣超級電腦快 58%。

挑戰：Maxar Technologies 是地球智慧和太空基礎設施值得信賴的合作夥伴和創新者，與其內部部署超級電腦相比，他們需要加快天氣預報的提供速度。

解決方案：Maxar 與 AWS 合作，共同建立 HPC 解決方案，包括提供安全、高度可靠運算資源的 Amazon Elastic Compute Cloud (Amazon EC2)、可加速應用程式讀取/寫入輸送量的 Amazon FSx for Lustre，以及可在 AWS 上快速建立 HPC 運算環境的 AWS ParallelCluster 等關鍵技術。

Maxar 在 AWS HPC 解決方案中使用 Amazon FSx for Lustre，來執行 NOAA 的數值天氣預報模型。這使我們能夠將運算時間縮短 58％，並在約 45 分鐘內產生預測，以獲得更具成本效益的價格點。將 AWS 運算資源最大化對我們來說是令人驚喜的效能改善。

Maxar Technologies 資深資料科學家和工程師 Stefan Cecelski 博士

閱讀 Maxar 個案研究 »
INEOS TEAM UK

INEOS TEAM UK 使用 AWS 加速美國盃的船隻設計。

挑戰：INEOS TEAM UK 成立於 2018 年，旨在將美國盃 (世界上最古老的國際體育獎杯) 帶到英國。美國盃將水上測試限制在賽事前不超過 150 天，因此單體船和水翼的高效能運算流體動力學 (CFD) 模擬成為成功船隻設計的關鍵。

解決方案：INEOS TEAM UK 透過 AWS，可以處理數千個設計模擬，使用內部部署環境將其在一週中所使用的美國盃船隻與其超過一個月所使用的船隻進行比對。INEOS TEAM UK 完成 2021 年第 36 屆美國盃賽事。該團隊使用的是在 Amazon EC2 Spot 執行個體上執行的 HPC 環境。為確保每週完成之數千個模擬的快速磁碟效能，團隊還使用了 Amazon FSx for Lustre 提供基於 Amazon Simple Storage Service (S3) 的快速、可擴展和安全的高效能檔案系統。

單純因為我們有更多了解結果的時間，AWS 讓我們得以採取更進階的設計步驟。

INEOS TEAM UK 設計部主管 Nick Holroyd

閱讀 INEOS TEAM UK 個案研究 »
Hive VFX

Hive VFX 可降低工作室前期成本，並在 AWS 上以雲端 VFX 工作室的形式運作。

挑戰：Hive 需要高效能基礎設施，為世界各地的遠端工作藝術家推出小型獨立的雲端工作室，讓他們能夠創作優質的內容。

解決方案：與 Amazon S3 整合的全受管 Amazon FSx for Lustre，可讓您快速存取 AWS 運算資源，而無需大量的前期投資或內部 IT 團隊專業知識。FSx Lustre 和 S3 之間的檔案資料和檔案許可的流暢同步，讓 Hive VFX 能夠在各大洲存放大量影像並共用專案資料。

我可以在 5 分鐘內啟動 Amazon FSx for Lustre 檔案系統，這一切都由 AWS 管理。

Hive VFX 創辦人 Bernie Kimbacher

閱讀 Hive VFX 案例研究 »
Lyell

Lyell 利用 Amazon FSx for Lustre 加速以細胞為基礎的癌症療法研究。

挑戰：Lyell 提供以細胞為基礎的癌症療法研究，這些研究需要執行大規模蛋白質運算設計。這些工作負載傳統上是在內部部署執行，但該公司需要更具可擴展性、更具成本效益的解決方案，因為他們每月實驗的執行次數只有一次。

解決方案：自從將檔案系統遷移到 FSx for Lustre 後，資料科學家可以啟動和關閉成千上萬個由 EC2 執行個體和 Amazon FSx 檔案系統組成的 HPC 叢集，讓他們能夠快速執行需要大量處理能力的實驗，而且只支付工作負載期間的運算和儲存費用。

Amazon for FSx Lustre 加快我們在開發下一代癌症療法方面的研究速度。我們透過 FSx，將實驗的執行時間從幾週縮短到幾小時，並協助科學家比以往進行更多假設測試。在數萬個運算節點上執行的工作負載現在可以使用 FSx 存取超高集合的 S3 資料。

Lyell Immunopharma 資料分析工程主管 Anish Kejariwal
BlackThorn Therapeutics

BlackThorn Therapeutics 透過 FSx for Lustre 縮短洞察產生時間。

挑戰：使用標準的 DiY 雲端檔案系統處理磁振造影 (MRI) 資料需要耗費大量資源和時間。BlackThorn 需要運算密集的共用檔案儲存解決方案，協助簡化資料科學和機器學習工作流程。

解決方案：Amazon FSx for Lustre 與 Amazon S3 和 Amazon SageMaker 整合，可為其機器學習訓練資料集提供快速處理，以及使用 Amazon EC2 執行個體進行流暢的運算存取。

FSx for Lustre 使我們能夠建立高效能的 MRI 資料處理管道。與幾天和幾週相比，我們將以 ML 為基礎的工作流程資料處理時間縮短至幾分鐘。

BlackThorn Therapeutics 創新與技術資深總監 Oscar Rodriguez
Qubole

Qubole 透過 Amazon FSx for Lustre 改善資料耐用性，同時降低成本。

挑戰：Qubole 正在尋求高效能儲存解決方案，來處理客戶的分析和 AI/ML 工作負載。他們需要輕鬆存放和處理 EC2 Spot 機群中保存的中繼資料。

解決方案：Qubole 使用 Amazon FSx for Lustre，透過其平行、高速的檔案系統來存放和處理中繼資料。

使用者的兩個最大問題，即成本過高和中間資料遺失，源於使用閒置 EC2 執行個體和 EC2 Spot 執行個體，來處理和存放由 Hive 和 Spark 等分散式處理架構產生的中繼資料。我們可以使用 Amazon FSx for Lustre (一種高效能的檔案系統) 卸載中繼資料，藉此解決這個問題。使用者現在無需支付費用，即可維護閒置執行個體，也不會受到中斷的 EC2 Spot 節點影響。Amazon FSx 協助使用者將總成本降低 30％。

Qubole 技術長 Joydeep Sen Sarma