O que é o SageMaker HyperPod?
O Amazon SageMaker HyperPod remove o trabalho árduo e não especializado relacionado ao desenvolvimento e à otimização da infraestrutura de machine learning (ML). Ele é configurado previamente com as bibliotecas de treinamento distribuído do SageMaker, que dividem automaticamente as workloads de treinamento entre mais de mil aceleradores de IA, permitindo que as workloads sejam processadas em paralelo para obtenção de uma performance aprimorada do modelo. O SageMaker HyperPod garante que seu treinamento de FM não seja interrompido ao salvar pontos de verificação periodicamente. Ele detecta automaticamente falhas de hardware quando ocorrem, repara ou substitui a instância com problema, e retoma o treinamento a partir do último ponto de verificação salvo, removendo a necessidade de você gerenciar manualmente esse processo. O ambiente resiliente permite o treinamento contínuo de modelos por semanas ou meses em um ambiente distribuído, sem interrupções, economizando até 40% do tempo de treinamento. Além disso, o SageMaker HyperPod é altamente personalizável, permitindo a execução e a escalabilidade eficientes das workloads de FM, além de facilitar o compartilhamento da capacidade de computação entre diferentes workloads, desde o treinamento em grande escala até a inferência.