Amazon OpenSearch Ingestion

大規模擷取、轉換資料,以及將資料路由至 Amazon OpenSearch 域和無伺服器集合

為何選擇 Amazon OpenSearch Service 擷取?

Amazon OpenSearch Ingestion 是 Amazon OpenSearch Service 的一項功能,可讓您擷取、篩選、轉換、擴充資料,以及將資料路由至 Amazon OpenSearch 域或無伺服器集合。Amazon OpenSearch Ingestion 能夠從各種來源擷取資料,並擁有內建處理器的豐富生態系統,可滿足最複雜的資料轉換需求。Amazon OpenSearch Ingestion 本質上是無伺服器的,可自動擴展以符合最嚴苛的工作負載需求,協助您專注於商業邏輯,同時為您的可觀察性和安全性使用案例,免除管理複雜資料管道的複雜性。

Amazon OpenSearch Service 的好處

刪除重複的干擾資料、對其進行取樣並路由至較低成本的儲存體,以實現降低儲存成本。
透過內建處理器來轉換、篩選和擴充資料,並採用結構描述來加速可觀察性並縮短安全性調查時間,以強制執行資料品質。
在敏感資訊到達目的地之前,透過編輯和模糊化敏感資料來保護敏感資料。
使用條件式邏輯來路由資料,以確保符合資料駐留法律。

主要特色

AWS 是許多客戶使用之 OpenSearch 專案的主要貢獻者。您可在此受管服務中取得所有 OpenSearch Data Prepper 的全新創新功能。除了這些社群推動和貢獻的功能之外,Amazon OpenSearch Ingestion 也會提供以下功能:

  • AWS 受管軟體安裝和修補
  • AWS 會全天候監控和修復服務
  • AWS 會升級版本
  • 更新和升級無停機時間
  • 可用性 SLA:99.9%
  • 無伺服器,可自動擴展擷取工作負載

客戶和合作夥伴

CyberArk 客戶評價

「CyberArk EPM (端點特權管理員) 是以雲端為基礎的多租用戶系統,我們使用 AWS OpenSearch 來管理數百萬個端點並收集高流量資料事件。透過善用 Amazon OpenSearch Ingestion,我們用 AWS 受管管道取代之前的自我管理 Logstash 管道,這消除了管理自己基礎設施的負擔,並提供更可擴展、經濟高效、可靠且安全的架構來進行資料擷取。這項決定是憑藉 CyberArk EPM 達到 FedRAMP 高進程狀態的額外優勢做出的,同時 Amazon OpenSearch Ingestion 已符合 FedRAMP 要求,讓我們能夠在產品中保持高級別安全性。」

CyberArk EPM 資深軟件架構師 Ori Doolman

CyberArk 標誌

Calyptia 客戶評價

「在 Calyptia,我們做為雲端原生運算基礎專案 Fluentd 和 Fluent Bit 的建立者和維護者,已經從事資料擷取工作 12 年有餘。在這些最新版專案中,我們很高興使用者透過將 Fluent 專案和 OpenSearch Ingestion Service 相結合,能夠在第一英哩就獲得更多控制權。憑藉擷取服務,使用者可繼續擴展代理程式和進行處理,而不必擔心基礎設施的管理和維護問題。」

Calyptia 聯合創辦人 Anurag Gupta

Calyptia 標誌

Confluent 客戶評價

「能夠與 Amazon OpenSearch 團隊合作,我們激動不已,因為他們建置了自己的 OpenSearch Ingestion 服務,並提供與 Apache Kafka 和 Confluent 的原生整合。這項整合將協助我們的共同客戶透過 OpenSearch 內部的 Apache Kafka 存取即時資料,讓他們能夠重新思考客戶體驗、建置即時後端作業,或推出新產品和服務。做為 Apache Kafka 的主要參與者,Confluent 擁有 10x'ed Kafka,建置了完整的雲端原生資料串流平台,讓您能夠將資料從任意建立位置,移至企業可在我們生活的多 SaaS 世界中採取行動之處。這讓 OpenSearch 使用者能夠從整合 Confluent 的 100 多個資料來源中受益。我們很高興看到我們的共同客戶在透過 Confluent 和 OpenSearch 設定動態資料時所建置的一切。」

Confluent 合作夥伴和創新生態系統副總裁 Paul Mac Farland

Confluent 標誌

擷取常見問答集

Amazon OpenSearch Ingestion 是一種資料擷取方案,可讓您篩選、擴充、轉換、標準化和彙總資料,以便在 Amazon OpenSearch 域和 Amazon OpenSearch Serverless 集合中進行下游分析和視覺化。Amazon OpenSearch Ingestion 可讓您建立自訂資料管道,以改善應用程式的操作檢視。Amazon OpenSearch Ingestion 的無伺服器本質可消除自我管理資料管道的複雜性,並確保資料管道的處理功能依據工作負載的需求自動擴展。使用 Amazon OpenSearch Ingestion,您可以

  • 透過重複資料刪除和取樣來實現降低儲存成本,以防止在 Amazon OpenSearch 中編製干擾資料的索引。
  • 在 Amazon OpenSearch 域中編製資料索引之前,透過轉換、格式化和擴充資料,強制執行資料品質並採用常用結構描述,以便更輕鬆地對問題進行疑難排解。
  • 在敏感資訊到達目的地之前,對敏感資訊進行編輯或模糊處理,以符合資料駐留法。

Amazon OpenSearch Ingestion 管道包含三個主要元件:

  • 來源是管道的輸入元件。其定義通過該管道取用記錄的機制。來源可透過 http/s 接收資料,或從外部第三方端點讀取來取用記錄。
  • 處理器是中間處理單元,可在將記錄發佈到接收器之前,篩選、轉換記錄,並將記錄擴充為所需的格式。處理器是管道的選用元件。如果您未定義處理器,則會以來源中定義的格式發佈記錄。您可以擁有多個處理器。處理器會依照您在管道中定義的順序執行。
  • 接收器是管道的輸出元件。其定義管道發佈記錄的一個或多個目的地。接收器還可以是另一條管道,允許您將多個管道鏈結在一起。

Amazon OpenSearch 支援擷取您通常會在 Amazon OpenSearch 域中編製索引的所有類型的資料。這包括但不限於結構化、非結構化、文字、數值和地理空間資料。此外,OpenSearch Ingestion 還支援擷取可觀察性資料的所有三個支柱:日誌、指標和追蹤。您可以利用 OpenSearch Ingestion 以及對豐富的資料來源、處理器和接收器生態系統的支援來轉換資料,然後再將資料存放至 Amazon OpenSearch 域中。藉助 OpenSearch Ingestion,您不再需要撰寫自訂 Lambda 函數或自行管理 Logstash 和 Elasticsearch 擷取節點,以擷取需要在 Amazon OpenSearch 叢集中編製索引的資料。請參閱我們的文件頁面,以查看 Amazon OpenSearch Ingestion 支援的來源、處理器和接收器清單。

Amazon OpenSearch Ingestion 是一種資料擷取方案,可預先處理資料,然後在 Amazon OpenSearch Service 中編製索引。OpenSearch Ingestion 搭配 Data Prepper 建置,這是 OpenSearch 專案的一個元件,並對 Data Prepper 支援的所有資料格式、來源、處理器和接收器予以支援。

若要開始使用 Amazon OpenSearch Ingestion,請先定義資料管道。OpenSearch Ingestion 管道是您業務邏輯的核心,其中包含來源、單一或系列處理器和接收器。您可透過包含來源、處理器和接收器詳細資訊的 YAML 檔案來定義管道組態。此外,OpenSearch Ingestion 還可讓您依據管道設定 OpenSearch 擷取運算單元 (OCU) 的最小和最大容量。最後,您可以選擇資料到達 OpenSearch Ingestion 管道的方式:

  • VPC 存取:針對 VPC 存取,我們會建立從您的 VPC 到 Amazon OpenSearch Ingestion 管道的私有連結。這可為管道提供私有連線,而不會將流量暴露到公有網際網路。
  • 公有存取:在此網路組態中,傳送至 OpenSearch 管道的資料會流經公有網際網路。

您可透過 AWS Console 或 AWS 命令列來開始建立資料管道。