可觀測性

高效地發現和修復問題、改善應用程式運作狀態,並提供更出色的客戶體驗

三種基本的可觀察性訊號分別是指標、日誌 (半結構化資料) 和追蹤 (所有相依關係從頭到尾的請求資料流)。這些訊號是容器、微型服務和應用程式等受監控環境的輸出結果。目標是為 DevOps 和網站可靠性工程師提供可隔離重要活動的整合型體驗,並使用所有可觀察性訊號將在任何地方執行的容器化應用程式與微型服務的問題加以隔離。Amazon OpenSearch Service 會將日誌與追蹤資料分析整合成一個解決方案。

可觀察性運作原理

Amazon OpenSearch Service 的新版功能有助於解決可觀察性問題。

功能

利用開放式介面來收集、傳送和轉換遙測資料 (包括 OpenTelemetryFluentdFluent BitLogstashData Prepper 等)。利用原生功能可搜尋及分析大量的半結構化資料。透過 OpenSearch Dashboards 的異常偵測可觀測性功能不僅可予以視覺化呈現、監控和警示,還可以利用 Piped Processing Language (PPL) 這個查詢介面對資料進行互動式分析和視覺化呈現。

收集

首先您必須收集分析資料。收集資料包括收集、增加、篩選、轉換和標準化多個來源的資料。

偵測

客戶往往無法在一開始就偵測到問題所在,從問題產生到您收到通知通常會有延遲。您必須盡量減少這種情況。必須主動積極地從多個方面 (例如遙測警報) 展開偵測。異常偵測是一款重要工具,也是可將相關警報連結在一起以降低警報疲勞的功能。視覺化呈現和監控也是偵測功能的核心要素,Amazon OpenSearch Service 透過 OpenSearch Dashboards 這個元件實現視覺化呈現和監控。 您甚至可以使用 PPL 等工具互動式分析資料。

調查

調查是人們在從事營運活動時花費最多時間做的事,而且調查活動往往需要多名人員投入。這是對平均事件時間 (MTTI) 以及平均復原時間 (MTTR) 影響最大的因素。應對混亂局面並瞭解當務之急實屬不易。使用日誌、指標和追蹤等功能不僅有助於在 AWS、內部部署或其他雲端上快速進行根本原因分析,同時還能建立指標、日誌和追蹤之間的關聯。使用 OpenSearch Dashboard 筆記本也可以聯手調查並將分析記錄下來。

補救

在查明失敗原因之後,必須進行補救。再也沒有比試圖補救某個問題卻每況愈下更糟糕的事情了。別忘了進行事後分析,判斷您原本可採取哪些措施預防失敗。將提議的變更記錄下來,以免日後一再發生同樣的問題。您的目標應是確保同樣的問題不再發生,但萬一它又發生,可以自動地察覺並補救這個問題。

應用程式效能監控

有時候從應用程式效能監控 (APM) 可看出可觀察性的基層成熟度。但光靠 APM 還不夠。如果應用程式監控儀表板全部呈現綠色,是否就表示應用程式實際上按預期執行? 您的客戶是否獲得他們所需的體驗? 應用程式的使用量如何? 應用程式的哪些部分即將達到規模上限? 您發現哪些地理區域的成長最大? 您可以視覺化呈現及規畫哪些趨勢? 如果您能夠收集指標,則可以在部署新程式碼或變更基礎設施時充滿信心,因爲您能看到這些變更帶來的影響。可觀察性促使 APM 可回答下列更多問題。

電腦顯示效能監控

客戶

Chase International:永遠啟用的大規模客戶體驗
Dow Jones 和 3M:藉助 Amazon OpenSearch Service 實現可觀察性

可觀察性資源

顯示 1 - 8 (11)

頁面主題

一般問題

一般問題

Trace Analytics 是 Amazon OpenSearch Service 的一項新功能,讓開發人員和 IT 營運商可以發現並修復分散式應用程式中的效能問題,從而更快地解決問題。Trace Analytics 使用 OpenTelemetry 建置,這是一個 Cloud Native Computing Foundation (CNCF) 專案,其提供單一 API、程式庫、代理程式和收集器服務集合來擷取分散式追蹤和指標,從而讓客戶能夠充分利用 Trace Analytics,而無需重新架構其應用程式。Trace Analytics 由 OpenSearch 提供支援,其採用開源,可供所有人免費下載和使用。

開發人員和 IT 操作人員需要 Trace Analytics 在其分散式應用程式中尋找和修復效能問題。透過將追蹤資料新增至 Amazon OpenSearch Service 的現有日誌分析功能中,客戶可以使用同一服務來隔離效能問題的來源,並診斷其根本原因。此外,由於支援 OpenTelemetry 標準,Trace Analytics 還可支援與兩個常用開源分散式追蹤系統 JaegerZipkin 軟體開發套件進行整合,這讓開發人員能夠繼續使用這些軟體開發套件,而不必重新架構其應用程式。

Trace Analytics 是 Amazon OpenSearch Service 的一項整合功能。所有客戶均可免費使用。Trace Analytics 具有以 OpenSearch 儀表板和 Kibana 為基礎的使用者界面,可視覺化和瀏覽追蹤資料,並與 Amazon OpenSearch Service 的關鍵功能整合,例如異常偵測、提醒、精細存取控制和企業安全性。在解決應用程式效能問題時,Trace Analytics 可補充客戶對 Amazon OpenSearch Service 的使用,以便搜尋和分析日誌資料。

如今,Trace Analytics 支援從與開源 OpenTelemetry Collector 相容的應用程式庫和軟體開發套件中收集追蹤資料,包括 JaegerZipkinX-Ray 開發套件。Trace Analytics 還可與 AWS Distro for OpenTelemetry 整合,這是 OpenTelemetry API、軟體開發套件和代理程式/收集器的分發版本。它還是 OpenTelemetry 元件的高效能和安全的分發版本,已針對生產用途進行測試,並受到 AWS 的支援。客戶可以使用 AWS Distro for OpenTelemetry 來收集多個監控解決方案的追蹤和指標,包括用於追蹤資料的 Amazon OpenSearch Service 和 AWS X-Ray,以及用於指標的 Amazon CloudWatch。

若要開始使用 Trace Analytics,請遵循這裡的文件。