本指南可協助您透過網際網路或低延遲的直接連線將生命科學資料儀器和實驗室系統檔案連線到 AWS 雲端。您可以削減存取頻率較低的資料的儲存費用,或者將其用於基因組學、成像和其他工作負載密集型的高效能運算,這一切都可在 AWS 上實現。
架構圖
步驟 1
實驗室技術人員執行實驗或測試,並將結果寫入內部部署檔案伺服器上的資料夾。AWS DataSync 任務設置為將資料從本機儲存同步到 Amazon Simple Storage Service (Amazon S3) 中儲存貯體。
步驟 2
資料透過網際網路或透過避開網際網路的低延遲直接連線 (例如 AWS Direct Connect) 傳輸到 AWS 雲端。
步驟 3
電子實驗室筆記本 (ELN) 和實驗室資訊管理系統 (LIMS) 透過事件和 API 與 AWS 雲端雙向共用實驗和測試中繼資料。訪問 AWS 上的實驗室資料網格指引,了解有關此整合的更多資訊。
步驟 4
合約研究組織 (CRO) 等合作實體可以使用適用於 FTP、SFTP 或 FTPS 的 AWS Transfer Family 將研究結果上傳到 Amazon S3。
步驟 5
您可以透過將儀器資料寫入配置為不頻繁存取的 S3 儲存貯體來最佳化儲存成本。確定您的 S3 儲存存取模式,從而最佳化配置 S3 儲存貯體生命週期策略並將資料傳輸到 Amazon S3 Glacier。
步驟 6
透過 Amazon FSx for Lustre,雲端高效能運算 (HPC) 可存取資料,用於基因組學、成像和其他密集型工作負載,從而提供低毫秒延遲的共用檔案系統。
步驟 7
生物資訊學管道由 AWS Step Functions、AWS HealthOmics 和 AWS Batch 協調,可實現靈活的 CPU 和 GPU 運算。
步驟 8
機器學習是透過人工智慧和機器學習 (AI/ML) 工具包進行的,該工具包使用 Amazon SageMaker 進行特徵工程、資料標記、模型訓練、部署和機器學習操作。Amazon Athena 用於靈活的 SQL 查詢。
步驟 9
對於使用內部部署應用程式進行資料分析和報告的研究人員來說,他們可以透過 Amazon S3 檔案閘道使用網路檔案系統 (NFS) 或伺服器訊息區塊 (SMB) 查看和訪問 Amazon S3 中的資料。
Well-Architected 支柱
AWS Well-Architected Framework 可協助您了解在雲端建立系統時所做決策的利弊。該架構的六根支柱讓您能夠學習設計和操作可靠、安全、高效、經濟高效且永續的系統的架構最佳實務。使用 AWS Well-Architected Tool (在 AWS 管理主控台中免費提供),您可以透過回答每根支柱的一組問題來針對這些最佳實務審查您的工作負載。
上方的架構圖是一個考量到 Well-Architected 最佳實務而建立的的解決方案的範例。若要完全實現 Well-Architected,您應該盡可能地多遵循 Well-Architected 的最佳實務。
-
卓越營運
隨著新的資料來源和合作夥伴的出現,可以使用各種資料傳輸服務來適應這些不斷變化的存取模式。對於多網站環境,可以使用 S3 檔案閘道進行傳輸,同時為其他應用程式保留現場快取。 Transfer Family 讓 CRO 等合作實體能夠輕鬆上傳研究結果。
-
安全性
出於資料保護的目的,我們建議您保護 AWS 帳戶憑證並使用 AWS Identity and Access Management (IAM) 設置個人使用者帳戶,這樣每位使用者只能獲得履行其工作職責所需的許可權。我們還建議您使用靜態加密,建議服務預設使用動態加密。
-
可靠性
DataSync 利用單個或多個 VPC 端點來確保在可用區不可用時,代理程式可以存取另一個端點。DataSync 是一項可擴展的服務,它利用一組代理程式來移動資料。任務和代理程式可以根據需要移轉的資料量的需求進行擴展。
DataSync 將所有事件記錄到 Amazon CloudWatch。如果任務失敗,可以採取措施來更好地了解問題以及任務失敗的地方。任務完成後,可以啟動後處理作業來完成管道流程的下一階段。
Amazon S3 為任務關鍵型和主要資料儲存提供了高度持久的儲存基礎設施。
-
效能達成效率
FSx for Lustre 儲存提供亞毫秒級的延遲、高達數百 GB/s 的輸送量和數百萬的 IOPS。
-
成本最佳化
透過使用隨需擴展的無伺服器技術,您只需依使用的資源付費。為進一步最佳化成本,您可以在不使用筆記本環境時,在 SageMaker 中將其停止。如果您不打算使用 Amazon QuickSight 視覺化儀表板,則可以選擇不部署它,從而節省成本。
資料傳輸費用主要包括兩個方面:DataSync,按每 GB 傳輸費率收費;以及Direct Connect 或 VPN 資料傳輸費。此外,如果使用 VPC 端點,則可能會收取跨可用區費用。
-
永續發展
CloudWatch 指標允許使用者根據提示和趨勢做出資料驅動型決策。透過廣泛使用受管服務和動態擴展,您可以最大限度地減少後端服務對環境的影響。大多數組件都是自給自足的。
Implementation 資源
提供了詳細的指南,以在您的 AWS 賬戶中實驗和使用。建立指南的每個階段 (包括部署、使用和清理) 都經過檢查以準備部署。
範本程式碼是一個起點。它經過了產業驗證、具有規範性但並非明確性,並且可以幫助您開始。
相關內容
Building Digitally Connected Labs with AWS
這篇文章討論了幫助生命科學實驗室充分利用 AWS 雲端的擴展和效能的工具、最佳實務和合作夥伴。
Resilience 在 AWS 上建置一個連通各實驗室的全球資料網格
本案例研究介紹了生物製造創新公司 Resilience 如何透過在 AWS 上建置資料傳輸互聯網路來徹底改變新藥生產方式。
免責聲明
範例程式碼、軟體庫、命令列工具、概念驗證、範本或其他相關技術 (包括我們的人員提供的任何上述技術) 依據 AWS 客戶協議或您與 AWS 之間的相關書面協議 (以適用者為準) 作為 AWS 內容提供給您。您不得在您的生產帳戶、生產或其他關鍵資料中使用此 AWS 內容。您有責任根據您的特定品質控制實務和標準,依生產級用途來測試、保護和最佳化 AWS 內容 (如範例程式碼)。部署 AWS 內容可能會因建立或使用 AWS 收費資源 (如執行 Amazon EC2 執行個體或使用 Amazon S3 儲存) 而產生 AWS 費用。
本指引中對第三方服務或組織的參考並不意味著 Amazon 或 AWS 與第三方之間的認可、贊助或聯繫。AWS 的指引是技術起點,您可以在部署架構時自訂與第三方服務的整合。