高效地發現和修復問題、改善應用程式運作狀態,並提供更出色的客戶體驗
三種基本的可觀察性訊號分別是指標、日誌 (半結構化資料) 和追蹤 (所有相依關係從頭到尾的請求資料流)。這些訊號是容器、微型服務和應用程式等受監控環境的輸出結果。目標是為 DevOps 和網站可靠性工程師提供可隔離重要活動的整合型體驗,並使用所有可觀察性訊號將在任何地方執行的容器化應用程式與微型服務的問題加以隔離。Amazon OpenSearch Service 會將日誌與追蹤資料分析整合成一個解決方案。
可觀察性運作原理
Amazon OpenSearch Service 的新版功能有助於解決可觀察性問題。
功能
利用開放式介面來收集、傳送和轉換遙測資料 (包括 OpenTelemetry、Fluentd、Fluent Bit、Logstash、Data Prepper 等)。利用原生功能可搜尋及分析大量的半結構化資料。透過 OpenSearch Dashboards 的異常偵測可觀測性功能,不僅可予以視覺化呈現、監控和警示,還可以利用 Piped Processing Language (PPL) 這個查詢介面對資料進行互動式分析和視覺化呈現。
收集
首先您必須收集分析資料。收集資料包括收集、增加、篩選、轉換和標準化多個來源的資料。
偵測
客戶往往無法在一開始就偵測到問題所在,從問題產生到您收到通知通常會有延遲。您必須盡量減少這種情況。必須主動積極地從多個方面 (例如遙測警報) 展開偵測。異常偵測是一款重要工具,也是可將相關警報連結在一起以降低警報疲勞的功能。視覺化呈現和監控也是偵測功能的核心要素,Amazon OpenSearch Service 透過 OpenSearch Dashboards 這個元件實現視覺化呈現和監控。 您甚至可以使用 PPL 等工具互動式分析資料。
調查
調查是人們在從事營運活動時花費最多時間做的事,而且調查活動往往需要多名人員投入。這是對平均事件時間 (MTTI) 以及平均復原時間 (MTTR) 影響最大的因素。應對混亂局面並瞭解當務之急實屬不易。使用日誌、指標和追蹤等功能不僅有助於在 AWS、內部部署或其他雲端上快速進行根本原因分析,同時還能建立指標、日誌和追蹤之間的關聯。使用 OpenSearch Dashboard 筆記本也可以聯手調查並將分析記錄下來。
補救
在查明失敗原因之後,必須進行補救。再也沒有比試圖補救某個問題卻每況愈下更糟糕的事情了。別忘了進行事後分析,判斷您原本可採取哪些措施預防失敗。將提議的變更記錄下來,以免日後一再發生同樣的問題。您的目標應是確保同樣的問題不再發生,但萬一它又發生,可以自動地察覺並補救這個問題。
應用程式效能監控
有時候從應用程式效能監控 (APM) 可看出可觀察性的基層成熟度。但光靠 APM 還不夠。如果應用程式監控儀表板全部呈現綠色,是否就表示應用程式實際上按預期執行? 您的客戶是否獲得他們所需的體驗? 應用程式的使用量如何? 應用程式的哪些部分即將達到規模上限? 您發現哪些地理區域的成長最大? 您可以視覺化呈現及規畫哪些趨勢? 如果您能夠收集指標,則可以在部署新程式碼或變更基礎設施時充滿信心,因爲您能看到這些變更帶來的影響。可觀察性促使 APM 可回答下列更多問題。