Lernen Der Natur den Vortritt lassen: Wie Sakana AI die Modellbildung verändert

Der Natur den Vortritt lassen: Wie Sakana AI die Modellbildung verändert

Wie war dieser Inhalt?

Die rasante Entwicklung im Bereich der generativen künstlichen Intelligenz (KI) hat zu einem astronomischen Tempo der Veränderungen geführt. Unternehmen konzentrieren sich nun darauf, immer leistungsfähigere Modelle zum Leben zu erwecken. Jeden Tag entsteht eine große Anzahl neuer und verbesserter großer Sprachmodelle (large language models, LLMs). Das bewährte Transformer-Modell ist das Herzstück des Booms der generativen KI und ermöglicht es Gründern, neue LLMs schnell zu skalieren und zu veröffentlichen.

Diese Upgrades sind jedoch oft mit Kosten verbunden, da sie mit jeder neuen Version mehr Rechenleistung und Ressourcen erfordern. Ältere LLM-Versionen können unterdessen schnell von größeren, rechenintensiven Modellen in den Schatten gestellt werden. Angesichts der weltweiten GPU-Knappheit, die der praktischen Skalierung des Modelltrainings Grenzen setzte, waren die Mitbegründer David Ha und Llion Jones neugierig, einen effizienteren Weg zu finden, um die Grenzen der KI zu erweitern. Sie begaben sich auf eine Forschungsreise, um kreative Techniken für die Entwicklung von Basismodellen (FM) zu erforschen, die von einer anderen Leistungsquelle inspiriert sind – der Kraft der Natur.

Ihr in Tokio ansässiges Startup Sakana AI steht nun an der Spitze eines neuen Trends beim KI-Modelltraining, indem es hochmoderne LLMs entwickelt, die aus bereits existierenden Modellen hervorgehen. Seit der Gründung des Unternehmens im Jahr 2023 bahnt sich ihre Forschung bereits ihren Weg durch die Maximierung von Ressourcen, die oft übersehen werden. Mithilfe von uralten Ideen wie der Evolution und der natürlichen Auslese macht das Unternehmen Sprünge in Richtung einer Zukunft, in der FMs automatisch die stärksten Eigenschaften ihrer Vorfahren erben. Die Vision? Eine Trainingsmethode, bei der sich die Modelle ständig weiterentwickeln und an veränderte Umgebungen anpassen.

Die neuen Generationen der KI nutzen

Ganz im Sinne des Unternehmertums wartet das Startup nicht einfach nur auf die nächste Veränderung in der generativen KI – es macht sich das Unbekannte zu eigen, um das Nächste zu finden. Jones, Chief Technology Officer bei Sakana AI, erklärt, warum sie ihre Positionen bei großen Technologieunternehmen aufgegeben haben, um Sakana AI zu gründen: „David und ich hatten nicht die Möglichkeit, die langfristige spekulative Forschung zu betreiben, die wir betreiben wollten, also wussten wir, dass wir uns selbständig machen mussten. Die Mitbegründer erkannten historische Muster in der Technologieentwicklung und sahen darin eine Chance, sinnvolle Entdeckungen zu machen.

Jones sagt dazu: „Ich denke, dass die KI-Forschung Phasen der Erforschung und Nutzung durchläuft. Man testet verschiedene Ansätze, bis man etwas findet, das gut funktioniert, und dann konzentriert man sich darauf, diese Technologie zu nutzen. Es gibt zwar einen großen Hype darum, wie das Transformer-Modell die generative KI trainiert, aber das bedeutet, dass wir nicht viel darüber hinaus erforschen."

Das Transformer-Modell war im Jahr 2017 ein Durchbruch in der Deep Learning-Architektur und hat seitdem die Welt im Sturm erobert. Gegenüber den Vorgängermodellen kann das Transformer-Modell auf viel größeren Datensätzen trainiert werden, für eine Vielzahl von Aufgaben verwendet werden und ein genaueres Verständnis der Texte haben, die sie lesen und schreiben. Allerdings geht mit der größeren Skalierbarkeit auch ein höherer Rechenbedarf einher, sodass die Hardwarehersteller nicht in der Lage waren, KI-Chips schnell genug zu entwickeln, um die Nachfrage zu befriedigen.

Sakana AI erforscht alternative, nachhaltigere Trainingsmethoden für Modelle. Takuya Akiba, Research Scientist bei Sakana AI, erklärt: "Beim Modelltraining nähern sich alle den gleichen Zielen an. Wir sehen daher keine großen Unterschiede bei den Ergebnissen. Bei Sakana AI schaffen wir ein neues, von der Natur inspiriertes Paradigma. Dadurch können wir neue Anwendungen finden, die durch einfache Skalierung nicht möglich wären.“

Takuya Akiba, Research Scientist at Sakana AI

Die Weisheit der Natur nutzen

Benannt nach dem japanischen Wort für Fisch, spielt ‚Sakana‘ auf die von der Natur inspirierten Techniken und den evolutionären Einfluss an. Auch das Logo steht für ihre bahnbrechenden Methoden. Es zeigt einen Fischschwarm, der in eine Richtung schwimmt, während ein roter Fisch trotzig in die andere Richtung schwimmt. Die Grafik fängt auch die Idee der kollektiven Intelligenz ein, die ihr Denken inspiriert – nämlich die Vorstellung, dass kleinere Modelle mit weniger Informationen und Ressourcen effizienter interagieren können als große, dichte Modelle, die viele Informationen weitergeben.

Die Technologie ist an einem Wendepunkt angelangt, und Sakana AI stellt die Idee der evolutionären Berechnung bei FMs auf die Probe. Die etablierte Technik zum Trainieren und Optimieren von Modellen ist als Gradientenabstieg bekannt – aber wie das Transformer-Modell ist dies mit hohen Rechenkosten verbunden. Es wäre jedoch falsch anzunehmen, dass die Ressourceneffizienz lediglich eine Notwendigkeit ist, um auf dem Weg zum Startup voranzukommen. Das Sakana AI-Team sieht darin einen strategischen Vorteil, der es ihnen ermöglicht, über den Tellerrand hinauszuschauen, die verfügbaren Ressourcen zu maximieren und Innovationen zu fördern. Wie Jones sagt: „Ich denke, dass diese Einschränkung dazu führt, dass wir noch interessantere Dinge entwickeln können.

"Unsere Philosophie lautet ‚Das Lernen gewinnt immer‘. Und um Dinge zu lernen, kann man nicht einfach den beliebtesten Algorithmus verwenden. Man muss verschiedene Techniken wie die evolutionäre Berechnung verwenden, um diese Räume zu durchsuchen“, fügt er hinzu. Mit strategischer technischer Unterstützung von AWS hat Sakana AI seither Ideen aus der Natur in den Technologiebereich gepflanzt und sieht bereits die Früchte seiner Arbeit.

Wellen schlagen mit der evolutionären Modellzusammenführung

Ein entscheidender Durchbruch ist der neuartige Ansatz von Sakana AI zur Zusammenführung von Modellen. Das Team hat festgestellt, dass aktuelle Modelle einen enormen Wert haben, aber Hunderttausende von ihnen ungenutzt bleiben oder verworfen werden, wenn sie von neuen Versionen abgelöst werden. „Es gibt bereits einen sehr großen Ozean einzigartiger, quelloffener LLMs“, sagt Akiba.

Durch die Zusammenführung verschiedener Modelle, anstatt sie von Grund auf neu zu trainieren, können sie die besten Eigenschaften jedes Modells nutzen, um ein neues, leistungsfähigeres zu erstellen. Die Verschmelzung von Modellen ist an sich nichts Neues - andere haben mit der Kunst des „Hackens“ von Modellen experimentiert, um spezialisierte LLMs zu erstellen – aber neu ist, dass Sakana AI einen von der Natur inspirierten Algorithmus anwendet, um den Prozess zu automatisieren.

Denken Sie nur an den Prozess der natürlichen Selektion. Im Laufe der Zeit haben sich die Arten so entwickelt, dass sie Gene weitergeben, die ihnen helfen, sich anzupassen und in ihrer Umgebung zu gedeihen. Merkmale, die das Überleben der Arten bedrohen, werden schließlich ausgerottet. Ebenso können die evolutionären Algorithmen von Sakana AI die optimalen Kombinationen verschiedener Teile von FMs finden, um neue FMs zu erzeugen, die von Natur aus so ausgewählt sind, dass sie in einer bestimmten Anwendung gut funktionieren. Das neue Modell erbt die erfolgreichen Eigenschaften der vorherigen Modelle auf der Grundlage der Angaben des Benutzers. Das ist weit entfernt von einem Frankenstein-ähnlichen Ansatz, bei dem verschiedene Modellelemente zusammengefügt werden.

Bei früheren Techniken zur Zusammenführung von Modellen war man auf menschliche Erfahrung, Fachwissen und Intuition angewiesen – und all das hat seine Grenzen. „Durch die Entwicklung verschiedener Möglichkeiten, die Algorithmen zusammenzuführen, erhalten wir ein besseres Modell, als ein Mensch von Hand entwerfen könnte“, erklärt Llion. "Jedes Mal, wenn man einen Computer dazu bringen kann, eine Reihe von Lösungen für einen zu durchsuchen, hat man gewonnen. Das ist besser als ein Mensch, der es manuell versucht, denn ein Computer ist schneller, probiert mehr Dinge aus als Sie und hat auch mehr Geduld als Sie."

Nur die stärksten FMs überleben

Da die Vielfalt offener Modelle und generativer KI-Aufgaben weiter zunimmt, wird der systematischere Ansatz von Sakana AI für die Zusammenführung von Modellen immer wichtiger werden. Wie Akiba sagt: „Es gibt fast unendlich viele Möglichkeiten, verschiedene Modelle zu kombinieren - daher brauchen wir diese heuristischen Optimierungsmodelle.“ In ihren Experimenten ließ Sakana AI den Evolutionsprozess einige hundert Generationen lang ablaufen, bis die Modelle mit der höchsten Punktzahl überlebten und die nächste Generation neu bevölkerten.

Es hat sich bereits bewährt, dass der Ansatz der Evolutionären Modellzusammenführung FMs auf oft unintuitive, aber höchst effektive Weise weiterentwickelt. So gibt es in Japan zwar eine Fülle von Open-Source-Modellen, aber keines von ihnen konnte bisher mit Mathematik umgehen, weil es keinen Datensatz für japanische Mathematik gibt. Anstatt bei Null anzufangen und ein neues Modell zu trainieren, fügte Sakana AI ein Modell mit japanischen Sprachkenntnissen mit einem englischen Modell zusammen, das gut in Mathematik ist, aber kein Japanisch spricht.

Das Endergebnis war ein hochmodernes LLM, das sowohl über ein verbessertes japanisches Denkvermögen als auch über starke mathematische Fähigkeiten verfügt - und in beiden Bereichen hat es bei Benchmarks außergewöhnlich gut abgeschnitten. Diese Modelle manuell zu kombinieren, wäre unglaublich schwierig gewesen, vor allem wenn es um so unterschiedliche Bereiche geht. Mit der Automatisierung des Prozesses kann das Startup bestehende FMs schnell umwandeln und ihre einzigartigen Qualitäten in verschiedene Kulturen einbringen.

Sakana AI fand heraus, dass evolutionäre Algorithmen nicht nur Text-LLMs unterstützen, denn sie haben LLMs auch erfolgreich mit japanischen Bildsprachmodellen zusammengeführt. Das daraus resultierende Modell verbesserte die Genauigkeit bei bildbezogenen Fragen und war sogar in der Lage, Nuancen und kulturspezifisches Wissen über Japan zu lernen. Auch die Anwendung der gleichen Methode auf verschiedene Diffusionsmodelle zur Bilderzeugung hat vielversprechende Ergebnisse gebracht.

Die Fähigkeit, sich anzupassen und zu lernen

Neue Wege in der generativen KI zu beschreiten, erfordert spezielles Fachwissen in Kombination mit einer robusten technischen Grundlage, die aus flexiblen und kostengünstigen Lösungen besteht. Diese Lösungen stellt AWS Sakana AI zur Verfügung, zusätzlich zu strategischer Beratung und Krediten über das AWS Activate-Programm. Durch den Zugang zu Finanzmitteln konnten sie mit ihrem von der Natur inspirierten Ansatz in der AWS-Cloud experimentieren, ohne dass Vorlaufkosten anfielen. Die persönliche technische Unterstützung durch das AWS Startups-Team hat es ihnen außerdem ermöglicht, schnell Fortschritte zu machen und Ergebnisse zu veröffentlichen.

Die Entscheidung für die richtigen Amazon-EC2-Instances ist nur eine der Möglichkeiten, wie sie ihre Forschung vorantreiben - das Mieten von Instanzen mit On-Demand- oder Kapazitätsblöcken bedeutet, dass sie agil bleiben und jederzeit die besten Instanzen auswählen können. Dieser Ansatz für die Rechenleistung hat auch zu geringeren Kosten und einem viel kleineren Speicherbedarf beigetragen, als er für Gradientenabstiegsmethoden erforderlich gewesen wäre. Akiba kommentierte: „AWS versteht unseren Workload und das, was wir zu erreichen versuchen, sehr gut. Sie haben uns geholfen, Herausforderungen wie Kapazitätsprobleme schnell zu überwinden.“

Von ihrem Ehrgeiz und ihrer Intelligenz inspiriert, hat AWS Sakana AI vom ersten Tag an unterstützt. Hierzu Yoshitaka Haribara, Solution Architect bei AWS: „Es ist ein Vergnügen, mit einem so talentierten Team zusammenzuarbeiten, das an der Spitze seines Spiels steht. Wir sind begeistert von den aufregenden Ergebnissen ihrer Forschung und hoffen, dass AWS ihre Bemühungen weiterhin unterstützen kann, indem wir Ressourcen, Fachwissen und kreatives Denken anbieten.“

Akiba betonte, wie die Partnerschaft und die Services von AWS es dem Unternehmen ermöglichten, sofort loszulegen: „Wir sind ein recht kleines Team, daher hatten wir keinen Plattform-Ingenieur, um einen Cluster einzurichten. Die Nutzung der AWS-Dienste ist wirklich einfach und hat uns die Erforschung unserer Forschung erleichtert.“

Erkundung neuer KI-Grenzen

Im Bereich der generativen KI herrscht ein harter Wettbewerb, und die Forschung von Sakana AI verspricht, den Fortschritt noch weiter zu beschleunigen. „Derzeit konkurrieren proprietäre Modelle und Open-Source-Modelle miteinander, und viele glauben, dass die proprietären Modelle die Nase vorn haben. Ich glaube jedoch, dass unsere Forschung die Entwicklung von Open-Source-Modellen beschleunigen und neue Fähigkeiten in der Community freisetzen kann“, sagt Akiba.

Sakana AI arbeitet weiterhin eifrig an der Erforschung neuartiger Techniken, die schnellere Innovationszyklen ermöglichen. Aber, wie Jones betont, geht es ihnen nicht um den schnellen Erfolg: „Unser langfristiger, forschender Ansatz macht es viel schwieriger, die Zukunft zu erkennen. Aber ich bin mit diesem Risiko sehr zufrieden, denn es ist extrem spannend, faszinierende Themen zu erforschen.“

Da Sakana AI über mehrere Projekte hinweg an Dynamik gewinnt, untersucht das Unternehmen, wie andere AWS-Services den Nachweis von Konzepten unterstützen können, z. B. die Verwendung von Amazon Bedrock für die Skalierung der Verwendung von Basismodellen wie Claude von Anthropic. Das Unternehmen erforscht nicht nur Techniken zur Modellzusammenführung, sondern auch die Entwicklung agentenbasierter intelligenter Systeme, und AWS unterstützt seine Vision in diesem spannenden Bereich.

Ausgehend vom derzeitigen Tempo des technologischen Fortschritts hat Jones große Hoffnungen: „Da sich die zum Trainieren von Modellen verwendete Rechenleistung weiterhin alle sechs Monate verdoppelt, könnten wir Intelligenz auf menschlichem Niveau erreichen, wenn wir die Trainingsalgorithmen weiter verbessern und optimieren, wie wir sie in einen Agenten einsetzen. Wenn wir dann in der Lage sind, 10.000 KI-Agenten auf die Beine zu stellen, um ein Problem zu lösen, könnte es möglich sein, wissenschaftliche Forschung im Wert von ein paar Jahren in einer Woche zu betreiben.“ Von der Automatisierung der Medikamentenentwicklung bis zur Verbesserung der Kernprozesse in der Informatik könnte diese Forschung einige der schwierigsten Probleme der Welt lösen.

Für Sakana AI war die Zusammenarbeit mit Partnern wie AWS von entscheidender Bedeutung – und das ist erst der Anfang des langfristigen Wertes, den sie noch freisetzen werden. Was raten sie anderen Startups, die das Potenzial der generativen KI ausbauen wollen? Jones würde es gerne sehen, wenn andere Gründer ihre Freiheit nutzen würden, um tiefer in die Technologie einzusteigen: „Seien Sie ehrgeizig mit Ihren Ideen. Stürzen Sie sich nicht auf den Goldrausch oder bringen Sie die erste Version einer App heraus, nur um die erste zu sein - nehmen Sie sich die Zeit zu forschen.“

Kan Kato

Kan Kato ist Startup Business Development Manager bei AWS und zeigt sein Engagement für die Förderung des Erfolgs und der Innovation von Startups durch strategische Partnerschaften mit Risikokapitalgebern, Beschleunigern und Initiativen zur Geschäftsentwicklung. Neben seiner Arbeit für Startups spielt er auch gerne Fußball und trainiert für Triathlons.

Arata Yanase

Arata Yanase ist Startup Account Manager bei AWS Japan. Nach einer früheren Karriere als Vertriebs- und Geschäftsentwickler in einem Fintech-Startup leitete er Maßnahmen zur Händlerentwicklung und zum Servicewachstum, um Nutzer zu gewinnen.

Yoshitaka Haribara

Yoshitaka Haribara ist Senior Startup ML Solutions Architect bei AWS Japan. In dieser Rolle hilft Yoshitaka Startup-Kunden bei Innovationen im Bereich generativer KI auf AWS. In seiner Freizeit spielt Yoshitaka gerne Schlagzeug.

Wie war dieser Inhalt?