Deixando a natureza liderar: como a Sakana AI está transformando a construção de modelos

Como estava esse conteúdo?

A explosão da inteligência artificial (IA) generativa criou um ritmo astronômico de mudanças. Agora, as empresas estão hiperfocadas em dar vida a modelos de alta performance, com um grande número de grandes modelos de idiomas (LLMs) novos e aprimorados surgindo todos os dias. O modelo Transformer, testado e comprovado, está no centro do boom da IA generativa, capacitando os fundadores a escalar e lançar rapidamente novos LLMs.

No entanto, esses upgrades geralmente têm um custo, exigindo mais capacidade de processamento e recursos a cada nova versão. Enquanto isso, as versões mais antigas do LLM podem rapidamente ser ofuscadas por modelos maiores e ávidos por computação. Em um cenário de escassez global de GPU, que estabeleceu o limite máximo da escalabilidade prática de treinamentos de modelos, os cofundadores David Ha e Llion Jones ficaram curiosos para encontrar uma maneira mais eficiente de ultrapassar as fronteiras da IA. Eles iniciaram uma jornada de pesquisas para explorar técnicas criativas para o desenvolvimento de modelos de base (FMs) inspirados em uma diferente fonte de poder: o poder da natureza.

A Sakana AI, sua startup com sede em Tóquio, agora está liderando uma nova tendência no treinamento de modelos de IA ao criar LLMs de ponta nascidos de LLMs pré-existentes. Desde que fundaram a empresa em 2023, suas pesquisas já estão abrindo novos caminhos por meio da maximização de recursos que muitas vezes são negligenciados. Usando ideias antigas, como evolução e seleção natural, a empresa está dando saltos em direção a um futuro em que os FMs herdam automaticamente as características mais fortes de seus ancestrais. A visão deles? Um método de treinamento em que os modelos evoluem e se adaptam continuamente a ambientes em constante mudança.

Abraçando novas gerações de IA

Com um verdadeiro espírito empreendedor, a startup não só está esperando a próxima mudança na IA generativa: ela está abraçando o desconhecido para descobrir o que vem por aí. Jones, diretor de tecnologia da Sakana AI, explica por que eles deixaram cargos em grandes empresas de tecnologia para iniciar a Sakana AI: “David e eu não estávamos explorando a pesquisa especulativa de longo prazo que queríamos fazer, então sabíamos que tínhamos que começar sozinhos”. Percebendo padrões históricos no desenvolvimento de tecnologias, os cofundadores viram uma oportunidade de fazer descobertas significativas.  

Jones acrescenta: “A maneira como eu penso sobre a pesquisa de IA é que ela passa por fases de exploração e aproveitamento. As pessoas tentam abordagens diferentes até encontrarem algo que funcione bem. Depois, todos se concentram em explorar essa tecnologia. Mas, embora haja muita propaganda sobre como o modelo Transformer treina a IA generativa, isso significa que não estamos explorando muito mais fora disso.”

O modelo Transformer foi um avanço na arquitetura de aprendizado profundo em 2017 e conquistou o mundo desde então. Ao contrário dos modelos anteriores, o Transformer pode ser treinado em conjuntos de dados muito maiores, usados para uma variedade de tarefas, e ter uma compreensão mais precisa dos textos que lê e escreve. Porém, com uma escalabilidade muito maior, surge a necessidade de maior computação, tanto que os fabricantes de hardware não conseguiram criar chips de IA com rapidez suficiente para atender à demanda.

A Sakana AI está explorando métodos de treinamento de modelos alternativos e mais sustentáveis. Takuya Akiba, pesquisador da Sakana AI, explica: “Todos estão convergindo para objetivos semelhantes ao treinar modelos. Por causa disso, não estamos vendo muita diferença nos resultados. Na Sakana AI, estamos criando um novo paradigma inspirado na natureza. Isso está nos permitindo encontrar novas aplicações que não seriam possíveis apenas com o ajuste da escala.”

Aproveitando a sabedoria da natureza

Batizada com o nome da palavra japonesa para peixe, a "Sakana" faz alusão às suas técnicas inspiradas na natureza e à influência evolutiva. O logotipo representa adequadamente seus métodos pioneiros. Mostra um cardume de peixes nadando em uma direção, enquanto um peixe vermelho nada desafiadoramente na direção oposta. O gráfico também captura a ideia da inteligência coletiva que inspira seu pensamento, ou seja, a noção de que modelos menores podem interagir de maneira mais eficiente com menos informações e recursos do que modelos grandes e densos que distribuem muitas informações.

Com a tecnologia atingindo um ponto de inflexão, a Sakana AI está testando a ideia de computação evolutiva em FMs. A técnica bem estabelecida de treinar e otimizar modelos é conhecida como "descida do gradiente", mas, como o modelo Transformer, isso tem um alto custo computacional. No entanto, estaríamos errados ao presumir que a eficiência de recursos é simplesmente uma necessidade para progredir na jornada de startup da empresa. A equipe de IA da Sakana vê isso como uma vantagem estratégica que os capacita a pensar fora da caixa, maximizar os recursos disponíveis e estimular a inovação. Como diz Jones: “Acho que essa restrição significa que podemos inventar coisas mais interessantes”.

“Nossa filosofia é que o aprendizado sempre vence. E, para aprender coisas, não podemos simplesmente usar o algoritmo mais popular. Precisamos usar técnicas diferentes, como computação evolutiva, para pesquisar esses espaços”, acrescenta ele. Com o suporte técnico estratégico da AWS, a Sakana AI já implantou ideias da natureza na esfera da tecnologia e já está vendo os frutos de seus esforços.

Criando ondas com a mesclagem evolutiva de modelos

Um avanço importante até o momento é a nova abordagem da Sakana AI à mesclagem de modelos. A equipe observou que há muito valor a ser obtido com os modelos atuais, mas centenas de milhares deles não são usados ou são descartados ao serem substituídos por novas versões. “Já existe um oceano muito grande de LLMs exclusivos e de código aberto”, diz Akiba.

Ao mesclar modelos diferentes, em vez de treiná-los do zero, eles podem aproveitar as melhores qualidades de cada um para criar um novo e mais poderoso. A mesclagem de modelos não é uma noção nova em si (as pessoas têm experimentado a arte de “hackear” modelos para criar LLMS especializados), mas a novidade é como a Sakana AI aplica um algoritmo inspirado na natureza para automatizar o processo.

Basta considerar o processo de seleção natural. As espécies evoluíram ao longo do tempo para transmitir genes que as ajudam a se adaptar e prosperar em seu ambiente. Enquanto isso, características que ameaçam a sobrevivência das espécies acabam sendo eliminadas. Da mesma forma, os algoritmos evolutivos da Sakana AI podem encontrar as combinações ideais de diferentes partes dos FMs para produzir novos FMs que são naturalmente selecionados para funcionar bem em uma aplicação específica. O novo modelo herda as características vencedoras dos modelos anteriores com base no que o usuário especificou. Está muito longe de ser uma abordagem ao estilo Frankenstein de unir diferentes elementos do modelo.

As técnicas anteriores de mesclagem de modelos se baseavam na experiência humana, no conhecimento de domínios e na intuição: todos com limites. “Ao desenvolver diferentes formas de mesclar os algoritmos, acabamos com um modelo mesclado melhor do que um humano poderia projetar manualmente”, explica Llion. “Sempre que você consegue fazer com que um computador pesquise um espaço de soluções, você ganha. Isso é melhor do que um humano tentando fazer isso manualmente, porque um computador pode fazer isso mais rápido, tentar mais coisas do que você e ter mais paciência do que você.”

Somente os FMs mais aptos sobrevivem

A diversidade de modelos abertos e tarefas de IA generativa continua aumentando, o que significa que a abordagem muito mais sistemática da Sakana AI à mesclagem de modelos se tornará cada vez mais importante. Como diz Akiba: “Há um número quase infinito de maneiras de combinar modelos diferentes, então precisamos desses modelos de otimização heurística”. Em seus experimentos, a Sakana AI permitiu que o processo de evolução funcionasse por algumas centenas de gerações, quando os modelos com maior pontuação sobreviveram para repovoar a próxima geração.

Já foi comprovado que a abordagem de mesclagem evolutiva de modelos evolui os FMs de maneiras muitas vezes pouco intuitivas, mas altamente eficazes. Por exemplo, embora existam muitos modelos de código aberto no Japão, nenhum deles era capaz de lidar com matemática anteriormente, pois não há um conjunto de dados matemáticos japoneses. Em vez de começar do zero e treinar um novo modelo, a Sakana AI mesclou um modelo com fluência no idioma japonês com um modelo em inglês que é bom em matemática, mas não fala japonês.

O resultado foi um LLM de última geração com raciocínio japonês aprimorado e fortes capacidades matemáticas, e teve um desempenho excepcionalmente bom em relação aos benchmarks em ambas as áreas. Combinar manualmente esses modelos teria sido incrivelmente difícil, especialmente ao lidar com domínios tão distintos. Ao automatizar o processo, a startup pode transformar rapidamente as FMs existentes e levar suas qualidades exclusivas para diferentes culturas.

A Sakana AI descobriu que os algoritmos evolutivos não oferecem suporte apenas a LLMs de texto, pois também mesclaram LLMs com modelos de linguagem de visão em japonês. Na verdade, o modelo resultante melhorou a precisão de questões relacionadas a imagens e foi até mesmo capaz de aprender nuances e conhecimentos culturalmente específicos sobre o Japão. A equipe também alcançou resultados promissores ao aplicar o mesmo método a diferentes modelos de difusão de geração de imagens.

O poder de se adaptar e aprender

Desbravar novos caminhos em IA generativa requer experiência especializada, combinada com uma base técnica robusta composta por soluções flexíveis e econômicas. A AWS fornece à Sakana AI essas soluções, além de orientação estratégica e créditos por meio do programa AWS Activate. O acesso ao financiamento permitiu que eles experimentassem sua abordagem inspirada na natureza na nuvem AWS sem a barreira dos custos iniciais. O suporte técnico personalizado da equipe do AWS Startups também os capacitou a progredir e publicar resultados rapidamente.

Escolher as instâncias certas do Amazon EC2 é apenas uma das maneiras com as quais eles estão impulsionando suas pesquisas. Alugar instâncias com blocos sob demanda ou Blocos de capacidade significa que eles podem se manter ágeis e selecionar os melhores a qualquer momento. Essa abordagem de potência computacional também contribuiu para reduzir custos e ocupar muito menos memória do que o necessário para métodos de descida do gradiente. Akiba comentou: “A AWS entende profundamente nossa workload e o que estamos tentando alcançar. Eles nos ajudaram a superar desafios rapidamente, como problemas de capacidade.”

Inspirada por sua ambição e inteligência, a AWS tem apoiado a Sakana AI desde o primeiro dia. Como diz Yoshitaka Haribara, arquiteto de soluções da AWS: “É um prazer trabalhar com uma equipe tão talentosa e de alto nível. Estamos entusiasmados em ver resultados empolgantes em suas pesquisas e esperamos que a AWS possa continuar apoiando seus esforços oferecendo recursos, experiência e pensamento criativo.”

Akiba observou como a parceria e os serviços da AWS permitiram que a empresa começasse a trabalhar rapidamente: “Somos uma equipe bem pequena e, por isso, não tínhamos um engenheiro de plataforma para configurar um cluster. É muito fácil usar os serviços da AWS, o que simplificou a exploração de nossa pesquisa.”

Explorando novas fronteiras de IA

Embora o espaço de IA generativa seja altamente competitivo e evolua em ritmo acelerado, a pesquisa da Sakana AI promete acelerar ainda mais o progresso. “No momento, há competição entre modelos proprietários e modelos de código aberto, e muitos acham que os modelos proprietários estão liderando o caminho. No entanto, acredito que nossa pesquisa possa ser um divisor de águas para acelerar o desenvolvimento de modelos de código aberto e desbloquear novas habilidades na comunidade”, diz Akiba.

A Sakana AI continua pesquisando avidamente como novas técnicas podem criar ciclos de inovação mais rápidos. Mas, como ressalta Jones, eles não buscam recompensas rápidas: “Nossa abordagem exploratória de longo prazo torna muito mais difícil prever o futuro. Porém, estou muito confortável com esse risco, porque é extremamente empolgante explorar tópicos fascinantes.”

À medida que a Sakana AI ganha impulso em vários projetos, eles estão examinando como outros serviços da AWS podem apoiar a prova de conceitos, como usar o Amazon Bedrock para escalar o uso de modelos de bas, como o Claude da Anthropic. Além das técnicas de mesclagem de modelos, a empresa também está pesquisando como desenvolver sistemas inteligentes baseados em agentes, e a AWS está apoiando sua visão nesse espaço empolgante.

Jones tem grandes esperanças com base na taxa atual de avanço da tecnologia: “Como a quantidade de computação usada para treinar modelos continua dobrando a cada seis meses, poderíamos alcançar a inteligência de nível humano se continuássemos aprimorando os algoritmos de treinamento e otimizando a forma como os colocamos em um agente. Se conseguirmos então acionar 10.000 agentes de IA para resolver um problema, seria possível fazer alguns anos de pesquisa científica em uma semana.” Desde automatização da descoberta de medicamentos até a melhoria das principais operações na ciência da computação, essa pesquisa pode resolver alguns dos problemas mais desafiadores do mundo.

A associação com parceiros como a AWS tem sido crucial para a jornada da Sakana AI, e isso é apenas o começo do valor a longo prazo que ainda lhes falta desbloquear. Seus conselhos para outras startups que buscam expandir o potencial da IA generativa? Jones adoraria ver outros fundadores aproveitarem sua liberdade aprofundando a tecnologia: “Seja ambicioso com suas ideias. Não saia para a corrida do ouro nem lance a primeira versão de uma aplicação só para ser a primeira: reserve um tempo para explorar.”

Kan Kato

Kan Kato

Kan Kato é gerente de desenvolvimento de negócios de startups na AWS, demonstrando o compromisso de promover o sucesso e a inovação de startups por meio de parcerias estratégicas com capitalistas de risco, aceleradores e iniciativas de desenvolvimento de negócios. Além de trabalhar para startups, ele também gosta de jogar futebol e treinar para triathlons.

Arata Yanase

Arata Yanase

Arata Yanase é gerente de contas de startups na AWS Japão. Com uma carreira anterior como vendas e desenvolvimento de negócios em uma startup de fintech, ele liderou medidas para o desenvolvimento de comerciantes e o crescimento de serviços para adquirir usuários.

Yoshitaka Haribara

Yoshitaka Haribara

Yoshitaka Haribara é arquiteto sênior de soluções de ML para startups na AWS Japão. Nessa função, Yoshitaka ajuda clientes startups a inovar em IA generativa na AWS. Em seu tempo livre, Yoshitaka gosta de tocar bateria.

Como estava esse conteúdo?