Laisser la nature nous guider : comment l’IA de Sakana transforme la création de modèles

Comment a été ce contenu ?

L’explosion de l’intelligence artificielle (IA) générative a entraîné un rythme de changement astronomique. Aujourd’hui, les entreprises s’attachent à donner vie à des modèles plus performants, et de nombreux nouveaux grands modèles de langage (LLM) améliorés apparaissent chaque jour. Le modèle éprouvé Transformer a été au cœur de l’essor de l’IA générative, permettant aux fondateurs de mettre à l’échelle et de publier rapidement de nouveaux LLM.

Cependant, ces mises à niveau ont souvent un coût, car elles exigent davantage de puissance de traitement et de ressources à chaque nouvelle version. Parallèlement, les anciennes versions de LLM peuvent rapidement être éclipsées par des modèles plus importants et plus gourmands en ressources informatiques. Dans un contexte de pénurie mondiale de GPU, qui a fixé la limite supérieure de la mise à l’échelle pratique de l’entraînement des modèles, les cofondateurs David Ha et Llion Jones étaient curieux de trouver un moyen plus efficace de repousser les frontières de l’IA. Ils ont entrepris un parcours de recherche pour explorer des techniques créatives de développement de modèles de fondation (FM) inspirées d’une source d’énergie différente : la puissance de la nature.

Sakana AI, leur start-up basée à Tokyo, est aujourd’hui le fer de lance d’une nouvelle tendance en matière d’entraînement de modèle d’IA par la création de LLM de pointe issus de LLM préexistants. Depuis qu’ils ont fondé l’entreprise en 2023, leurs recherches ouvrent déjà de nouvelles perspectives en maximisant des ressources souvent négligées. En utilisant des idées séculaires telles que l’évolution et la sélection naturelle, l’entreprise fait des pas de géant vers un avenir où les FM hériteront automatiquement des meilleures caractéristiques de leurs ancêtres. Leur vision ? Une méthode d’entraînement où les modèles évoluent constamment et s’adaptent à des environnements changeants.  

Adoption des nouvelles générations d’IA

Dans un véritable esprit d’entreprise, la start-up n’attend pas seulement le prochain changement en matière d’IA générative, elle affronte l’inconnu pour trouver la prochaine étape. Jones, directeur de la technologie chez Sakana AI, explique pourquoi ils ont quitté des postes dans de grandes entreprises technologiques pour lancer Sakana AI : « David et moi ne menions pas les recherches spéculatives à long terme que nous souhaitions, et nous savions donc que nous devions nous mettre à notre compte. » En remarquant les tendances historiques du développement technologique, les cofondateurs ont vu une opportunité de faire des découvertes significatives.  

Jones ajoute : « Ma conception de la recherche sur l’IA est qu’elle passe par des phases d’exploration et d’exploitation. On essaie différentes approches jusqu’à ce qu’on trouve quelque chose qui fonctionne bien, puis tout le monde se concentre sur l’exploitation de cette technologie. Mais même si la façon dont le modèle Transformer entraîne l’IA générative suscite beaucoup d’intérêt, cela signifie que nous n’explorons pas plus que cela ».

Le modèle Transformer a constitué une percée dans l’architecture du deep learning en 2017 et a depuis pris le monde d’assaut. Contrairement aux modèles qui l’ont précédé, Transformer peut être entraîné sur des jeux de données beaucoup plus importants, utilisé pour une variété de tâches, et avoir une compréhension plus précise des textes qu’il lit et écrit. Mais cette évolutivité accrue entraîne la nécessité d’une plus grande capacité de calcul, à tel point que les fabricants de matériel n’ont pas été en mesure de créer des puces d’IA assez rapidement pour répondre à la demande.

Sakana AI explore des méthodes d’entraînement alternatives et plus durables sur les modèles. Takuya Akiba, chercheur chez Sakana AI, explique : « Tout le monde converge vers des objectifs similaires lors de l’entraînement de modèles. Pour cette raison, nous ne constatons pas beaucoup de différence dans les résultats. Chez Sakana AI, nous créons un nouveau paradigme inspiré par la nature. Cela nous permet de trouver de nouvelles applications qui ne seraient pas possibles par une simple mise à l’échelle ».

La sagesse de la nature au service de l’homme

Nommé d’après le mot japonais désignant les poissons, « Sakana » fait allusion à leurs techniques inspirées de la nature et à leur influence évolutive. Le logo représente de manière appropriée leurs méthodes pionnières. Elle montre un banc de poissons nageant dans une direction tandis qu’un poisson rouge nage avec défi dans la direction opposée. Le graphique reflète également l’idée d’intelligence collective qui inspire leur réflexion, à savoir l’idée selon laquelle les petits modèles peuvent interagir plus efficacement avec moins d’informations et de ressources que les grands modèles denses diffusant de nombreuses informations.

Alors que la technologie atteint un point d’inflexion, Sakana AI met l’idée du calcul évolutif à l’épreuve sur les FM. La technique bien établie d’entraînement et d’optimisation des modèles est connue sous le nom d’algorithme du gradient, mais, comme le modèle Transformer, elle entraîne un coût de calcul élevé. Vous auriez tort de supposer que l’efficacité des ressources est simplement une nécessité pour progresser dans leur parcours de start-up. L’équipe d’intelligence artificielle de Sakana y voit un avantage stratégique qui lui permet de sortir des sentiers battus, de maximiser les ressources disponibles et de favoriser l’innovation. Comme le dit Jones, « je pense que cette contrainte signifie que nous pouvons proposer des choses plus intéressantes ».

« Notre philosophie est « l’apprentissage gagne toujours ». Et pour apprendre des choses, vous ne pouvez pas simplement utiliser l’algorithme le plus populaire. Vous devez utiliser différentes techniques, comme le calcul évolutif, pour rechercher ces champs d’apprentissage », ajoute-t-il. Grâce au soutien technique stratégique d’AWS, Sakana AI a depuis intégré des idées issues de la nature à la sphère technologique, et l’entreprise observe déjà les fruits de son labeur.

La fusion de modèles évolutifs fait des vagues

La nouvelle approche de Sakana AI en matière de fusion de modèles constitue une avancée majeure à ce jour. L’équipe a observé que les modèles actuels présentent un énorme avantage, mais que des centaines de milliers d’entre eux ne sont pas utilisés ou sont supprimés lorsqu’ils sont remplacés par de nouvelles versions. « Il existe déjà un très vaste océan de LLM open source uniques », explique Akiba.

En fusionnant différents modèles, plutôt qu’en les entraînant à partir de zéro, on peut exploiter les meilleures qualités de chacun d’entre eux pour en créer un nouveau, plus puissant. La fusion de modèles n’est pas une notion nouvelle en soi. L’art de « pirater » des modèles a déjà été expérimenté pour créer des LLM spécialisés, mais ce qui est nouveau, c’est la façon dont Sakana AI applique un algorithme inspiré de la nature pour automatiser le processus.

Il suffit de considérer le processus de sélection naturelle. Les espèces ont évolué au fil du temps pour transmettre des gènes qui les aident à s’adapter et à prospérer dans leur environnement. Pendant ce temps, les traits qui menacent la survie des espèces finissent par disparaître. Suivant la même idée, les algorithmes évolutifs de Sakana AI peuvent trouver les combinaisons optimales de différentes parties des FM afin de produire de nouveaux FM naturellement sélectionnés pour fonctionner correctement dans une application particulière. Le nouveau modèle hérite des caractéristiques dominantes des modèles précédents en fonction de ce que l’utilisateur a spécifié. C’est bien loin d’une approche à la Frankenstein qui consiste à assembler différents éléments du modèle.

Les techniques précédentes de fusion de modèles reposaient sur l’expérience humaine, la connaissance du domaine et l’intuition, qui toutes ont des limites. « En développant différentes manières de fusionner les algorithmes, nous obtenons un meilleur modèle fusionné que celui qu’un humain pourrait concevoir à la main », explique Llion. « Chaque fois que vous pouvez utiliser un ordinateur pour effectuer une recherche dans un espace de solutions à votre place, vous gagnez. Cela vaut mieux qu’un humain qui essaie de le faire manuellement, car un ordinateur peut le faire plus rapidement, essayer plus de choses que vous et faire preuve de plus de patience que vous ».

Seuls les FM les plus forts survivent

La diversité des modèles ouverts et des tâches d’IA génératives continue de croître, ce qui signifie que l’approche beaucoup plus systématique de Sakana AI en matière de fusion de modèles ne fera que gagner en importance. Comme le dit Akiba : « Il existe une infinité de manières de combiner différents modèles. Nous avons donc besoin de ces modèles d’optimisation heuristique. »  Dans le cadre de ses expériences, Sakana AI a laissé le processus d’évolution fonctionner pendant quelques centaines de générations, lorsque les modèles les plus performants survivent pour repeupler la génération suivante.

L’approche de fusion de modèles évolutifs a déjà fait ses preuves pour faire évoluer les FM de manière souvent peu intuitive, mais très efficace. Par exemple, bien qu’il existe une multitude de modèles open source au Japon, aucun d’entre eux ne pouvait gérer les mathématiques auparavant, car il n’existe aucun ensemble de données mathématiques japonaises. Au lieu de partir de zéro et de former un nouveau modèle, Sakana AI a fusionné un modèle maîtrisant la langue japonaise avec un modèle anglais qui maîtrise bien les mathématiques, mais ne parle pas japonais.

Il en a résulté un LLM de pointe doté à la fois d’un raisonnement japonais amélioré et de solides capacités mathématiques, et ce LLM a obtenu des résultats exceptionnels par rapport aux critères de référence dans ces deux domaines. La combinaison manuelle de ces modèles aurait été incroyablement difficile, en particulier lorsqu’il s’agissait de gérer des domaines aussi distincts. En automatisant le processus, la start-up peut rapidement transformer les FM existants et apporter leurs qualités uniques à différentes cultures.

Sakana AI a découvert que les algorithmes évolutifs ne se contentent pas de prendre en charge les LLM textuels, car ils ont également fusionné avec succès les LLM avec des modèles de langage visuel japonais. En fait, le modèle qui en a résulté a amélioré la précision des questions liées à l’image et a même permis d’apprendre des nuances et des connaissances culturelles spécifiques au Japon. L’équipe a également obtenu des résultats prometteurs en appliquant la même méthode à différents modèles de diffusion de génération d’images.

Le pouvoir de s’adapter et d’apprendre

L’innovation en matière d’IA générative nécessite une expertise spécialisée combinée à une base technique solide comprenant des solutions flexibles et rentables. AWS fournit ces solutions à Sakana AI, en plus de fournir des conseils stratégiques et des crédits dans le cadre du programme AWS Activate. L’accès au financement leur a permis d’expérimenter leur approche inspirée de la nature dans le cloud AWS sans avoir à supporter les coûts initiaux. L’assistance technique personnalisée fournie par l’équipe AWS Startups leur a également permis de progresser et de publier les résultats rapidement.

Le choix des instances Amazon EC2 adaptées n’est qu’un des moyens utilisés pour mener à bien leurs recherches. La location d’instances avec des blocs de capacité ou à la demande leur permet de rester agile et de sélectionner les meilleures à tout moment. Cette approche de la puissance de calcul a également contribué à réduire les coûts et à réduire considérablement l’encombrement de la mémoire par rapport à ce qui aurait été nécessaire pour les méthodes d’algorithme du gradient. Akiba a déclaré : « AWS comprend parfaitement notre charge de travail et les objectifs que nous cherchons à atteindre. Ils nous ont aidés à surmonter rapidement des défis, tels que les problèmes de capacité ».

Inspirée par leur ambition et leur intelligence, AWS soutient Sakana AI depuis le premier jour. Comme le déclare Yoshitaka Haribara, architecte de solutions chez AWS : « C’est un plaisir de travailler avec une équipe aussi talentueuse et au sommet de sa forme. Nous sommes ravis de constater les résultats passionnants de leurs recherches et nous espérons qu’AWS pourra continuer à soutenir leurs efforts en leur proposant des ressources, une expertise et une réflexion créative ».

Akiba a expliqué comment le partenariat avec AWS et les services AWS ont permis à l’entreprise de démarrer rapidement : « Nous sommes une équipe assez petite, nous n’avions donc pas d’ingénieur de plateforme pour mettre en place un cluster. Les services AWS sont très faciles à utiliser, ce qui nous a permis d’explorer nos recherches en toute simplicité ».

Exploration des nouvelles frontières de l’IA

Alors que l’espace de l’IA générative est très compétitif et évolue à un rythme soutenu, les recherches de Sakana AI promettent d’accélérer encore les progrès. « À l’heure actuelle, il existe une concurrence entre les modèles propriétaires et les modèles open source, et beaucoup pensent que les modèles propriétaires montrent la voie. Cependant, je pense que nos recherches peuvent changer la donne en accélérant le développement de modèles open source et en libérant de nouvelles compétences au sein de la communauté », déclare Akiba.

Sakana AI continue de rechercher avec ferveur comment de nouvelles techniques peuvent créer des cycles d’innovation plus rapides. Mais comme le souligne Jones, ils ne sont pas là pour obtenir des récompenses rapides : « Notre approche exploratoire à long terme rend beaucoup plus difficile la vision de l’avenir. Mais je suis très à l’aise avec ce risque, car c’est extrêmement excitant d’explorer des sujets fascinants ».

Alors que Sakana AI prend de l’ampleur dans le cadre de plusieurs projets, l’entreprise examine comment d’autres services AWS peuvent soutenir la validation de concepts, comme l’utilisation d’Amazon Bedrock pour étendre son utilisation de modèles de base tels que Claude d’Anthropic. Au-delà des techniques de fusion de modèles, l’entreprise étudie également comment faire évoluer des systèmes intelligents basés sur des agents, et AWS soutient sa vision dans cet espace passionnant.

Jones fonde de grands espoirs sur le rythme actuel des avancées technologiques : « Étant donné que la quantité de calcul utilisée pour entraîner les modèles continue de doubler tous les six mois, nous pourrions atteindre le niveau de l’intelligence humaine si nous continuions à améliorer les algorithmes d’entraînement et à optimiser la façon dont nous les intégrons dans un agent. Si nous parvenons ensuite à utiliser 10 000 agents d’IA pour résoudre un problème, il pourrait être possible de mener deux années de recherche scientifique en une semaine. » Qu’il s’agisse d’automatiser la découverte de médicaments ou d’améliorer les opérations de base en informatique, cette recherche pourrait résoudre certains des problèmes les plus complexes au monde.

Faire équipe avec des partenaires tels qu’AWS a joué un rôle crucial dans le parcours de Sakana AI, et ce n’est que le début de la valeur à long terme qu’ils n’ont pas encore dégagée. Leurs conseils aux autres start-ups qui cherchent à développer le potentiel de l’IA générative ? Jones adorerait voir d’autres fondateurs profiter de leur liberté en approfondissant la technologie : « Soyez ambitieux dans vos idées. Ne vous précipitez pas vers l’or et ne publiez pas la première version d’une application pour le plaisir d’être le premier. Prenez le temps de l’explorer ».  

Kan Kato

Kan Kato

Kan Kato est Startup Business Development Manager chez AWS. Il démontre son engagement à favoriser le succès et l’innovation des start-ups grâce à des partenariats stratégiques avec des sociétés de capital-risque, des accélérateurs et des initiatives de développement commercial. En plus de travailler pour des start-ups, il aime jouer au football et s’entraîner pour des triathlons.

Arata Yanase

Arata Yanase

Arata Yanase est Startup Account Manager chez AWS Japan. Après une carrière antérieure en tant que responsable des ventes et du développement commercial dans une start-up fintech, il a dirigé les mesures de développement des commerçants et de croissance des services visant à acquérir des utilisateurs.

Yoshitaka Haribara

Yoshitaka Haribara

Yoshitaka Haribara est Senior Startup ML Solutions Architect chez AWS Japan. À ce titre, Yoshitaka aide les entreprises clientes à innover dans le domaine de l’IA générative sur AWS. Pendant ses temps libres, Yoshitaka aime jouer de la batterie.

Comment a été ce contenu ?