Encontre e corrija problemas com eficiência, melhore a integridade do aplicativo e ofereça melhores experiências ao cliente
Três sinais fundamentais de observabilidade são métricas, logs (dados semiestruturados) e rastreamentos (fluxos de solicitações do início ao fim em todas as dependências). Esses sinais são o resultado de ambientes monitorados, como contêineres, microsserviços e aplicativos. O objetivo é fornecer uma experiência integrada para que os engenheiros de DevOps e de confiabilidade do site isolem eventos essenciais e usem todos os sinais de observabilidade para isolar problemas em aplicativos e microsserviços conteinerizados executados em qualquer lugar. O Amazon OpenSearch Service combina análise de dados de log e rastreamento em uma única solução.
Operações de observabilidade
O Amazon OpenSearch Service fornece novas funcionalidades para ajudar na solução de problemas de observabilidade.
Recursos
Use interfaces abertas para coletar, rotear e transformar dados de telemetria (inclusive OpenTelemetry, Fluentd, Fluent Bit, Logstash, Data Prepper e outras). É possível pesquisar e analisar grandes volumes de dados semiestruturados com funcionalidades nativas. É possível visualizar, monitorar e alertar com detecção de anomalias os recursos de observabilidade do OpenSearch Dashboards e conduzir análise interativa e visualizações de dados com a Piped Processing Language (PPL), uma interface de consulta.
Colete
Primeiro, é preciso coletar os dados para análise. A coleta abrange a obtenção, o enriquecimento, a filtragem, a transformação e a normalização de dados de várias fontes.
Detecção
Frequentemente, os clientes não detectam problemas assim que eles surgem. Em geral, há um atraso entre o início de um problema e o momento em que você é avisado. Você quer reduzir esse retardo o máximo possível. A detecção deve ser proativa e multifacetada (como alarmes em telemetria). A detecção de anomalias é uma ferramenta essencial, bem como a capacidade de reunir alarmes relacionados para reduzir a fadiga do alarme. Um componente central da detecção também é a visualização e o monitoramento, o que o Amazon OpenSearch Service faz com um componente chamado OpenSearch Dashboards. É possível até mesmo analisar interativamente os dados com ferramentas, como o PPL.
Investigar
A investigação ocorre onde as pessoas gastam mais tempo durante um evento operacional. A investigação geralmente envolve várias pessoas. Esse é o maior contribuinte para o Tempo médio para o incidente (MTTI) e o Tempo médio para a recuperação (MTTR). Atravessar o caos e entender no que se concentrar continua a ser uma tarefa difícil. Use logs, métricas e rastreamentos para ajudá-lo a realizar rapidamente a análise da causa-raiz, enquanto faz a correlação entre métricas, logs e rastreamentos, na AWS, no local ou em outras nuvens. Colabore nas investigações e documente sua análise com os cadernos do OpenSearch Dashboard.
Corrigir
Depois da identificação da causa de uma falha, é preciso corrigi-la. Não há nada pior do que tentar consertar alguma coisa e piorar a situação. Não se esqueça de realizar uma análise pós-evento para determinar como a falha poderia ter sido evitada previamente. Documente as alterações propostas para evitar a recorrência do problema. Seu objetivo deve ser garantir que o mesmo problema jamais ocorra novamente. Porém, se ocorrer, você poderá identificá-lo e remediá-lo automaticamente.
Monitoramento de desempenho de aplicativos
Às vezes, o APM é o primeiro nível de maturidade da observabilidade. Porém, o APM, isoladamente, não é suficiente. Seu aplicativo está tendo o desempenho esperado, mesmo se o painel de monitoramento de aplicativos estiver todo verde? Seus clientes estão tendo a experiência do usuário de que necessitam? Qual o uso do seu aplicativo? Que partes do seu aplicativo estão atingindo os limites de escala? Em que região geográfica você está observando o maior crescimento? Que tendências você pode visualizar e para quais deve fazer planos? Se você pudesse reunir as métricas, poderia ter a certeza de que, ao implantar um novo código ou uma mudança na infraestrutura, poderia observar o impacto dessas mudanças. A observabilidade aprimora o APM para responder a essas perguntas adicionais.