Por que usar as instâncias Trn1 do Amazon EC2?
As instâncias Trn1 do Amazon Elastic Compute Cloud (EC2), equipadas com chips AWS Trainium, são criadas especificamente para o treinamento de aprendizado profundo (DL) de alta performance dos modelos de IA generativa, incluindo grandes modelos de linguagem (LLMs) e modelos de difusão latente. As instâncias Trn1 oferecem até 50% de redução de custo de treinamento em comparação com outras instâncias do Amazon EC2. Você pode usar instâncias Trn1 para treinar mais de 100 B de parâmetros de modelos DL e de IA generativa em um amplo conjunto de aplicações, como resumo de texto, geração de código, resposta a perguntas, geração de imagens e vídeos, recomendação e detecção de fraudes.
O SDK do AWS Neuron ajuda os desenvolvedores a treinar modelos no AWS Trainium (e a implantar modelos nos chips do AWS Inferentia). Ele se integra nativamente a estruturas, como PyTorch e TensorFlow, para que você possa continuar usando seu código e fluxos de trabalho existentes para treinar modelos nas instâncias Trn1. Para saber mais sobre o suporte atual do Neuron para estruturas e bibliotecas de machine learning (ML), arquiteturas de modelos e otimizações de hardware, acesse a documentação do Neuron.
Introdução às instâncias Trn1 do Amazon EC2 com a tecnologia AWS Trainium
Benefícios
Recursos
Depoimentos de clientes e parceiros
Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias Trn1 do Amazon EC2.
-
Databricks
Mais de 10.000 organizações em todo o mundo — incluindo a Comcast, a Condé Nast e mais de 50% das empresas da Fortune 500 — confiam no Databricks para unificar seus dados, análises e inteligência artificial.
Milhares de clientes implementaram o Databricks na AWS, oferecendo a eles a capacidade de usar o MosaicML para pré-treinar, ajustar e servir modelos básicos para uma variedade de casos de uso. O AWS Trainium nos oferece a escala e o alto desempenho necessários para treinar nossos modelos Mosaic MPT, e a um custo baixo. À medida que treinamos nossos modelos Mosaic MPT de próxima geração, o Trainium2 possibilitará a construção de modelos ainda mais rapidamente, o que nos permitirá oferecer aos nossos clientes escala e desempenho sem precedentes para que eles possam lançar suas próprias aplicações de IA generativa no mercado mais rapidamente.
Naveen Rao, vice-presidente de IA generativa, Databricks -
Stockmark Co., Ltd
Com a missão de “reinventar o mecanismo de criação de valor e promover a humanidade”, a Stockmark ajuda muitas empresas a criar e construir negócios inovadores fornecendo tecnologia de processamento de linguagem natural de ponta.
Com 16 nós de instâncias Trn1 do Amazon EC2 com tecnologia de chips AWS Trainium, desenvolvemos e lançamos o stockmark-13b, um grande modelo de linguagem com 13 bilhões de parâmetros, pré-treinado do zero em um corpus japonês de 220 bilhões de tokens. O corpus inclui os textos mais recentes do domínio comercial até setembro de 2023. O modelo alcançou a maior pontuação do JSQuAD (0,813) no benchmark JGLUE (Japanese General Language Understanding Evaluation) em comparação com outros modelos equivalentes. Ele está disponível no Hugging Face Hub e pode ser usado comercialmente com a licença MIT. As instâncias Trn1 nos ajudaram a alcançar uma redução de 20% no custo de treinamento em comparação com instâncias de GPU equivalentes.
Kosuke Arima, diretor de tecnologia da Stockmark Co., Ltd. -
RICOH
A RICOH oferece soluções de local de trabalho e serviços de transformação digital projetados para gerenciar e otimizar o fluxo de informações entre empresas.
A migração para instâncias Trn1 foi bastante simples. Conseguimos concluir o treinamento do nosso modelo de parâmetros 13B em apenas 8 dias. Com base nesse sucesso, estamos ansiosos para desenvolver e treinar nosso modelo de parâmetros 70B no Trainium e estamos entusiasmados com o potencial dessas instâncias em treinar nossos modelos de forma mais rápida e econômica.
Yoshiaki Umetsu, diretor do Centro de Desenvolvimento de Tecnologia Digital da RICOH -
HeliXon
Na HeliXon, construímos soluções de IA de próxima geração para terapias baseadas em proteínas. Nosso objetivo é desenvolver ferramentas de IA que capacitem os cientistas a decifrar a função e a interação das proteínas, interrogar conjuntos de dados genômicos em grande escala para identificação de alvos e projetar terapias, como anticorpos e terapias celulares. Hoje, usamos bibliotecas de distribuição de treinamento, como o FSDP, para paralelizar o treinamento de modelos em muitos servidores baseados em GPU, mas isso ainda requer semanas para treinar um único modelo. Estamos entusiasmados em usar as instâncias Trn1 do Amazon EC2 que oferecem a maior largura de banda da rede (800 Gbps) disponível na AWS para melhorar a performance dos nossos trabalhos de treinamento distribuídos e reduzir os tempos de treinamento de modelos, além de reduzir os custos de treinamento.
Jian Peng, CEO da Helixon -
Money Forward, Inc.
A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa.
Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir os custos. Como continuamos ajustando modelos personalizados de PNL periodicamente, também é importante reduzir os tempos e custos de treinamento de modelos. Com base em nossa experiência de migração bem-sucedida da workload de inferência em instâncias Inf1 e em nosso trabalho inicial em instâncias Trn1 do EC2 baseadas no AWS Trainium, esperamos que as instâncias Trn1 forneçam valor adicional para melhorar a performance e o custo de ML de ponta a ponta.
Takuya Nakade, CTO da Money Forward, Inc. -
Magic
A Magic é uma empresa integrada de produtos e pesquisas que desenvolve IA para tornar o mundo mais produtivo.
O treinamento de grandes modelos baseados em transformadores autorregressivos é um componente essencial do nosso trabalho. As instâncias Trn1 com a tecnologia AWS Trainium são projetadas especificamente para essas workloads, oferecendo escalabilidade quase infinita, redes rápidas entre nós e suporte avançado a tipos de dados de 16 e 8 bits. As instâncias Trn1 nos ajudarão a treinar modelos grandes com mais rapidez e menor custo. Estamos especialmente entusiasmados com o suporte nativo ao arredondamento estocástico BF16 no Trainium, aumentando a performance, enquanto a precisão numérica é inseparável da precisão total.
Eric Steinberger, co-fundador e CEO da Magic -
Cactus Communications
A CACTUS tem um conjunto de produtos e soluções para pesquisadores e organizações que melhoram a forma como a pesquisa é financiada, publicada, comunicada e descoberta.
Na Cactus Labs, aproveitamos o poder da IA, com pesquisas focadas em processamento de linguagem natural, recomendação de classificação, IA conversacional, modelos de linguagem grande, visão computacional, AR/VR e XAI. De acordo com nossa busca para permitir um treinamento mais rápido de modelos de machine learning, além de permitir que nossos pesquisadores realizem mais experimentos enquanto gerenciam o custo da infraestrutura, tivemos o prazer de avaliar o AWS Trainium. Os atributos prontos para uso do AWS Trainium, como otimização de XLA, treinamento paralelo de dados de vários trabalhadores e armazenamento em cache de gráficos, são realmente úteis para reduzir os tempos de treinamento e nos ajudar a realizar mais experimentos com mais rapidez e economia.
Nishchay Shah, CTO e chefe de produtos emergentes, Cactus Communications -
Watashiha
O Watashiha oferece um serviço de chatbot de IA inovador e interativo, o “OGIRI AI”, que incorpora humor para fornecer uma resposta divertida e imediata para uma pergunta.
Usamos grandes modelos de linguagem para incorporar humor e oferecer uma experiência mais relevante e coloquial aos clientes em nossos serviços de IA. Isso exige o pré-treinamento e o ajuste desses modelos com frequência. Fizemos o pré-treinamento de um modelo japonês baseado em GPT na instância Trn1.32xlarge do EC2, usando o paralelismo dos tensores e dados. O treinamento foi concluído em 28 dias com uma redução de custo de 33% em relação à nossa infraestrutura anterior baseada em GPU. Como nossos modelos continuam crescendo rapidamente em complexidade, esperamos que as instâncias Trn1n tenham o dobro da largura de banda da rede da Trn1 para acelerar o treinamento de modelos maiores.
Yohei Kobashi, CTO da Watashiha, K.K.
-
PyTorch
Na PyTorch, aceleramos a transformação do machine learning desde a prototipagem de pesquisas até a produção pronta para os clientes. Colaboramos amplamente com a equipe da AWS para fornecer suporte nativo ao PyTorch para as novas instâncias Trn1 do Amazon EC2, com tecnologia do AWS Trainium desenvolvidas especificamente para o treinamento de modelos de aprendizado profundo. Desenvolvedores que criam modelos PyTorch podem começar a treinar em instâncias Trn1 com o mínimo de alterações de código. Além disso, trabalhamos com a comunidade OpenXLA para habilitar as bibliotecas distribuídas do PyTorch para facilitar a migração de modelos de instâncias baseadas em GPU para instâncias Trn1. Estamos entusiasmados com a inovação que as instâncias Trn1 trazem para a comunidade PyTorch, incluindo tipos de dados mais eficientes, formas dinâmicas, operadores personalizados, arredondamento estocástico otimizado por hardware e modo de depuração rápida. Tudo isso torna a Trn1 adequada para ampla adoção por desenvolvedores da PyTorch e esperamos futuras contribuições conjuntas à PyTorch para otimizar ainda mais a performance do treinamento.
Geeta Chauhan, IA aplicada, gerente de engenharia, PyTorch -
Hugging Face
A missão da Hugging Face é democratizar o bom ML para ajudar os desenvolvedores de ML em todo o mundo a resolver problemas do mundo real. E a chave para isso é garantir que os melhores e mais recentes modelos funcionem da forma mais rápida e eficiente possível nos melhores chips de ML na nuvem. Estamos muito entusiasmados com o potencial da Inferentia2 de se tornar a nova forma padrão de implantar modelos de IA generativa em grande escala. Com o Inf1, observamos um custo até 70% menor do que as instâncias tradicionais baseadas em GPU e, com o Inf2, observamos uma latência até oito vezes menor para transformadores do tipo BERT em comparação com o Inferentia1. Com o Inferentia2, nossa comunidade poderá escalar facilmente essa performance para LLMs na escala de mais de 100 bilhões de parâmetros, e também para os modelos mais recentes de difusão e visão computacional.
-
Amazon
Estamos treinando grandes modelos de linguagem (LLM) que são multimodais (texto + imagem), multilíngues, multilocais, pré-treinados em várias tarefas e que abrangem várias entidades (produtos, consultas, marcas, avaliações etc.) para melhorar a experiência de compra do cliente. As instâncias Trn1 fornecem uma maneira mais sustentável de treinar LLMs, oferecendo a melhor performance/watt em comparação com outras soluções aceleradas de machine learning e nos oferecem alta performance com o menor custo. Planejamos explorar o novo tipo de dados FP8 configurável e o arredondamento estocástico acelerado por hardware para aumentar ainda mais a eficiência do nosso treinamento e a velocidade do desenvolvimento.
Trishul Chilimbi, vice-presidente de pesquisa da Amazon
Conceitos básicos
Detalhes do produto
Tamanho da instância | Chips Trainium |
Acelerador Memória (GB) |
vCPUs | Instância Memória (GiB) |
Local NVMe Armazenamento (TB) |
Rede Largura de banda (Gbps) |
EFA e RDMA Suporte |
EBS Largura de banda (Gbps) |
Sob demanda Preço por hora |
1 ano Reservada Instância Efetiva Por hora* |
3 anos Reservada Instância Efetiva Por hora* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0,5 | Até 12,5 | Não | Até 20 | USD 1,34 | USD 0,79 | USD 0,4744 |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | Sim | 80 | USD 21,50 | USD 12,60 | USD 7,59 |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1.600 | Sim | 80 | USD 24,78 | USD 14,52 | USD 8,59 |