什麼是零 ETL?

零 ETL 是一組整合,可消除建置 ETL 資料管道的需求或將該需求降至最低。擷取、轉換和載入 (ETL) 是一種程序,可合併、清理不同來源的資料並將其標準化,以便為分析、人工智慧 (AI)機器學習 (ML) 工作負載做好準備。傳統的 ETL 程序在開發、維護和擴展方面既耗時又複雜。但是,零 ETL 整合可簡化點對點資料移動,而不需要建立 ETL 資料管道。零 ETL 還可以跨資料孤島進行查詢,而無需移動資料。 

閱讀有關 ETL 的內容 »

零 ETL 整合解決了哪些 ETL 挑戰?

零 ETL 整合可解決傳統 ETL 程序中存在的許多資料移動挑戰。

增加系統複雜性

ETL 資料管道為您的資料整合工作增加了額外的複雜性。符合所需目標結構描述的映射資料,涉及複雜的資料映射規則,並且需要處理資料不一致和衝突。您必須實作有效的錯誤處理、記錄日誌和通知機制來診斷問題。資料安全要求進一步增加了系統限制。

其他費用

ETL 管道一開始很昂貴,但隨著資料量的增長,成本可能也會增加。對於大量資料而言,可能無法負擔系統之間的重複資料儲存。此外,擴展 ETL 程序通常需要代價高昂的基礎設施升級、查詢效能最佳化和平行處理技術。如果需求發生變化,資料工程必須在更新過程中不斷監控和測試管道,從而增加維護成本。

分析、AI 和 ML 的延遲時間

ETL 通常要求資料工程師建立自訂程式碼,以及 DevOps 工程師部署和管理擴展工作負載所需的基礎設施。若資料來源發生變更,資料工程師必須手動修改其程式碼並重新予以部署。此程序可能需要數週的時間,進而導致執行分析、人工智慧和機器學習工作負載的延遲。此外,建置和部署 ETL 資料管道所需的時間,讓資料不適合近乎即時的使用案例,例如投放線上廣告、偵測詐騙交易或即時供應鏈分析。在這些案例中,將會失去改善客戶體驗、尋找新的商機或降低業務風險的機會。

零 ETL 具有哪些優勢?

零 ETL 為組織的資料策略提供了諸多優勢。

提高敏捷性

零 ETL 可簡化資料架構並減少資料工程工作。它允許包含新的資料來源,而無需重新處理大量資料。這種靈活性可增強敏捷性,支援資料驅動型決策和快速創新。

符合經濟效益

零 ETL 利用雲端原生且可擴展的資料整合技術,讓企業能夠根據實際用量和資料處理需求來最佳化成本。組織可降低基礎設施成本、開發工作和維護開銷。

即時洞察

傳統的 ETL 程序通常涉及定期批次更新,會導致資料可用性延遲。另一方面,零 ETL 提供即時或近乎即時的資料存取,確保為分析、AI/ML 和報告提供更新的資料。您可以更準確及時地獲得使用案例洞察,例如即時儀表板、優化遊戲體驗、資料品質監控和客戶行為分析。組織可以更有信心地進行資料導向型預測,改善客戶體驗,並在整個企業中推廣資料驅動型洞察。

零 ETL 有哪些不同的使用案例?

零 ETL 有三個主要使用案例。

聯合查詢

聯合查詢技術能夠查詢各種資料來源,而不必擔心資料移動。您可以使用熟悉的 SQL 命令,跨多個來源 (例如操作資料庫、資料倉儲和資料湖) 執行查詢和聯結資料。記憶體內資料網格 (IMDG) 會將資料儲存在要快取和處理的記憶體中,因此您可以從即時分析和查詢回應時間中獲益。然後,您可以將聯結結果儲存在資料存放區中,以供進一步分析和後續使用。

串流擷取

資料串流和訊息佇列平台會從多個來源串流即時資料。與資料倉儲的零 ETL 整合可讓您從多個此類串流中擷取資料,並以近乎即時的速度呈現,以供分析之用。不需要在任何其他儲存服務上暫存串流資料,以進行轉換。

即時複寫

傳統上,將資料從交易式資料庫遷移至中央資料倉儲始終需要複雜的 ETL 解決方案。如今,零 ETL 可以充當資料複寫工具,即時將資料從交易式資料庫複製到資料倉儲。複製機制使用變更資料擷取 (CDC) 技術,並且可以內建至內置資料倉儲。複製對使用者不可見 – 應用程式會將資料儲存在交易式資料庫中,而分析師可順暢地從倉儲查詢資料。

AWS 如何支援您的零 ETL 需求?

AWS 正在投資零 ETL 的未來。以下是為零 ETL 提供內建支援的服務範例。

Amazon Athena 是以開放原始碼架構為基礎建置的無伺服器互動式分析服務,支援開放資料表和檔案格式。Athena 提供簡化、靈活的方式來分析其所在位置的數 PB 資料。您可以從 Amazon Simple Storage Service (S3) 資料湖和 30 個以上的資料來源 (包括內部部署資料來源或使用 SQL 或 Python 的其他雲端系統) 分析資料或建立應用程式。Athena 建立在開放原始碼 Trino 和 Presto 引擎和 Apache Spark 框架之上,無需佈建或設定。

Amazon Redshift 串流擷取每秒可從 Amazon Kinesis Data Streams 或 Amazon MSK 擷取數百 MB 的資料。定義結構描述或選擇擷取具有 SUPER 資料類型的半結構化資料,以即時查詢資料。

Amazon Aurora 與 Amazon Redshift 的零 ETL 整合可實現近乎即時的分析和機器學習 (ML)。其使用 Amazon Redshift 對來自 Aurora 的 PB 級交易資料進行分析工作負載。這是一個全受管解決方案,可在將交易資料寫入 Aurora 資料庫叢集之後,於 Amazon Redshift 中提供使用。

Amazon Redshift 從 S3 自動複製,可簡化並自動將檔案導入 Amazon Redshift。只要在 S3 中建立新檔案,此功能就會持續擷取資料,而無需自訂編碼或手動擷取活動。

AWS Lake Formation 的資料共享存取控制可集中管理整個組織共用資料的精細存取。您可以在 Amazon Redshift 中定義、修改和稽核資料表、資料欄和資料列的許可。

立即建立免費帳戶,開始使用 AWS 上的零 ETL!

AWS 上的後續步驟

查看其他產品相關資源
檢視雲端中分析服務的免費優惠 
註冊免費帳戶

立即存取 AWS 免費方案。

註冊 
開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入