Com'era questo contenuto?
Lasciar fare alla natura: come Sakana AI sta trasformando la creazione di modelli
L'esplosione dell'intelligenza artificiale (IA) generativa ha velocizzato incredibilmente il cambiamento. Ora le aziende sono fortemente concentrate nel dare vita a modelli con prestazioni più elevate, con un gran numero di nuovi e migliorati modelli linguistici di grandi dimensioni (LLM) che emergono ogni giorno. Il collaudato modello di trasformatore è stato al centro del boom dell'IA generativa e ha consentito ai fondatori di scalare e rilasciare rapidamente nuovi LLM.
Tuttavia, questi aggiornamenti hanno spesso un costo, poiché richiedono più potenza di elaborazione e risorse con ogni nuova versione. Nel frattempo, le versioni di LLM precedenti possono essere rapidamente messe in secondo piano da modelli più grandi e desiderosi di calcolo. In un contesto di carenza globale di GPU, che ha posto il limite massimo alla scalabilità pratica dell'addestramento dei modelli, i cofondatori David Ha e Llion Jones erano curiosi di trovare un modo più efficiente per superare le frontiere dell'IA. Hanno intrapreso un percorso di ricerca per esplorare tecniche creative per lo sviluppo di modelli di fondazione (FM) ispirati a una diversa fonte di energia: il potere della natura.
Sakana AI, la loro startup con sede a Tokyo, guida una nuova tendenza nell'addestramento dei modelli di IA creando LLM all'avanguardia nati da quelli preesistenti. Da quando hanno fondato l'azienda nel 2023, la loro ricerca sta già aprendo nuovi orizzonti massimizzando le risorse che spesso vengono trascurate. Utilizzando idee secolari come l'evoluzione e la selezione naturale, l'azienda sta facendo passi da gigante verso un futuro in cui gli FM erediteranno automaticamente i tratti più forti dei loro antenati. La loro visione? Un metodo di addestramento in cui i modelli si evolvono e si adattano costantemente agli ambienti in evoluzione.
Accogliere le nuove generazioni di IA
Con un vero spirito imprenditoriale, la startup non sta solo aspettando il prossimo cambiamento nell'IA generativa, ma sta abbracciando l'ignoto per scoprire il futuro. Jones, Chief Technology Officer presso Sakana AI, spiega perché hanno lasciato dei ruoli in importanti aziende tecnologiche per avviare Sakana AI: “David e io non stavamo esplorando la ricerca speculativa a lungo termine come volevamo, quindi sapevamo di dover iniziare da soli”. Notando i modelli storici nello sviluppo della tecnologia, i cofondatori hanno visto l'opportunità di fare scoperte significative.
Jones aggiunge: “Penso che la ricerca sull'IA passi attraverso fasi di esplorazione e sfruttamento. Le persone provano approcci diversi finché non trovano qualcosa che funzioni bene, poi tutti si concentrano sullo sfruttamento di quella tecnologia. Ma se c'è tutto questo entusiasmo sul modo in cui il modello di trasformatore addestra l'IA generativa, significa che non stiamo esplorando altro.”
Il modello di trasformatore è stato una svolta nell'architettura di deep learning nel 2017 e da allora ha conquistato il mondo. A differenza dei modelli precedenti, il trasformatore può essere addestrato su set di dati molto più grandi, utilizzato per un'ampia gamma di attività e può avere una comprensione più accurata dei testi che legge e scrive. Ma una scalabilità molto maggiore comporta la necessità di una maggiore capacità di calcolo, tanto che i produttori di hardware non sono stati in grado di creare chip di IA sufficientemente veloci da soddisfare la domanda.
Sakana AI sta esplorando metodi di addestramento dei modelli alternativi e più sostenibili. Takuya Akiba, ricercatore presso Sakana AI, spiega: “Tutti convergono verso obiettivi simili quando addestrano i modelli. Per questo motivo, non vediamo molta differenza nei risultati. In Sakana AI stiamo creando un nuovo paradigma ispirato alla natura. Questo ci sta permettendo di trovare nuove applicazioni che non sarebbero possibili semplicemente scalando.”
Sfruttare la saggezza della natura
Prendendo il nome dalla parola giapponese che significa pesce, “Sakana” allude alle tecniche ispirate alla natura e all'influenza evolutiva. Il logo rappresenta in modo appropriato i loro metodi pionieristici. Mostra un banco di pesci che nuota in una direzione mentre un pesce rosso nuota con aria di sfida nella direzione opposta. L'illustrazione cattura anche l'idea dell'intelligenza collettiva che ispira il loro pensiero, vale a dire l'idea che i modelli più piccoli possono interagire in modo più efficiente con meno informazioni e risorse rispetto ai modelli grandi e densi che trasmettono molte informazioni.
Con la tecnologia che sta raggiungendo un punto di svolta, Sakana AI sta mettendo alla prova l'idea del calcolo evolutivo sugli FM. La tecnica consolidata di addestramento e ottimizzazione dei modelli è nota come discesa del gradiente ma, come per il modello di trasformatore, comporta un costo di calcolo elevato. Tuttavia, si sbaglia se si presume che l'efficienza delle risorse sia semplicemente una necessità per far progredire il loro percorso come startup. Il team di Sakana AI lo considera un vantaggio strategico che consente loro di pensare fuori dagli schemi, massimizzare le risorse disponibili e promuovere l'innovazione. Come afferma Jones: “Penso che questo vincolo significhi che possiamo inventarci altre cose interessanti.”
“La nostra filosofia è ‘l'apprendimento vince sempre’. Per imparare non puoi semplicemente utilizzare l'algoritmo più popolare. È necessario utilizzare tecniche diverse come il calcolo evolutivo per cercare in questi spazi”, aggiunge. Grazie al supporto tecnico strategico di AWS, Sakana AI ha da allora inserito idee provenienti dalla natura nella sfera tecnologica e sta già vedendo i frutti del proprio lavoro.
Suscitare interesse con Evolutionary Model Merge
Il nuovo approccio di Sakana AI alla fusione dei modelli è una svolta fondamentale. Il team ha osservato che si può ottenere un enorme valore dai modelli attuali, eppure centinaia di migliaia di essi rimangono inutilizzati o vengono eliminati quando vengono sostituiti da nuove versioni. “Esiste già un vasto oceano di LLM unici e open source”, afferma Akiba.
Unendo diversi modelli, anziché addestrarli da zero, è possibile sfruttare le migliori qualità di ciascuno per crearne uno nuovo e più potente. La fusione di modelli non è di per sé un concetto nuovo, le persone hanno sperimentato l'arte di “hackerare” i modelli per creare LLM specializzati, ma la novità è il modo in cui Sakana AI applica un algoritmo ispirato alla natura per automatizzare il processo.
Basta considerare il processo di selezione naturale. Le specie si sono evolute nel tempo per trasmettere geni che le aiutano ad adattarsi e prosperare nel loro ambiente. Mentre i tratti che minacciano la sopravvivenza delle specie vengono spazzati via. Allo stesso modo, gli algoritmi evolutivi di Sakana AI possono trovare le combinazioni ottimali di diverse parti degli FM per produrne di nuovi che sono naturalmente selezionati per funzionare bene in una particolare applicazione. Il nuovo modello eredita i tratti vincenti dei modelli precedenti in base a ciò che l'utente ha specificato. È ben diverso dall'approccio in stile Frankenstein di unire i diversi elementi del modello.
Le precedenti tecniche di fusione dei modelli si basavano sull'esperienza umana, sulla conoscenza del dominio e sull'intuizione, tutte con dei limiti. “Sviluppando diversi modi di unire gli algoritmi, otteniamo un modello combinato migliore di quello che un essere umano potrebbe progettare manualmente”, spiega Llion. “Ogni volta che riesci a far sì che un computer cerchi soluzioni per te è una vittoria. Un computer può farlo più velocemente, provare più cose e avere più pazienza di una persona che esegue i processi manualmente.”
Solo gli FM più adatti sopravvivono
La diversità dei modelli aperti e delle attività di IA generativa continua a crescere, il che significa che l'approccio molto più sistematico di Sakana AI alla fusione dei modelli non farà che diventare più importante. Come afferma Akiba: “Esistono quasi un'infinità di modi per combinare diversi modelli, quindi abbiamo bisogno di questi modelli di ottimizzazione euristica”. Nell'ambito dei loro esperimenti, Sakana AI ha lasciato che il processo di evoluzione funzionasse per alcune centinaia di generazioni, quando i modelli con il punteggio più alto sopravvivono per ripopolare la generazione successiva.
È già stato dimostrato che l'approccio Evolutionary Model Merge fa evolvere gli FM in modi spesso non intuitivi, ma altamente efficaci. Ad esempio, sebbene in Giappone esistano numerosi modelli open source, nessuno di essi era in grado di gestire la matematica perché non esiste un set di dati matematici giapponesi. Invece di partire da zero e addestrare un nuovo modello, Sakana AI ha unito un modello con padronanza della lingua giapponese con un modello inglese che è bravo in matematica, ma non parla giapponese.
Il risultato è stato un LLM all'avanguardia con un ragionamento giapponese migliorato e forti capacità matematiche, che ha ottenuto risultati eccezionalmente buoni rispetto ai benchmark in entrambe le aree. Combinare manualmente questi modelli sarebbe stato incredibilmente difficile, soprattutto quando si gestiscono domini così distinti. Automatizzando il processo, la startup può trasformare rapidamente gli FM esistenti e portare le loro qualità uniche a culture diverse.
Sakana AI ha scoperto che gli algoritmi evolutivi non supportano solo gli LLM testuali, poiché hanno unito con successo anche gli LLM con modelli linguistici di visione giapponese. In effetti, il modello risultante ha migliorato la precisione delle domande relative alle immagini ed è stato persino in grado di apprendere sfumature e conoscenze culturalmente specifiche sul Giappone. Il team ha inoltre ottenuto risultati promettenti applicando lo stesso metodo a diversi modelli di diffusione per la generazione di immagini.
Il potere di adattarsi e apprendere
Aprire nuovi orizzonti nell'IA generativa richiede competenze specialistiche combinate con una solida base tecnica composta da soluzioni flessibili ed economiche. AWS fornisce a Sakana AI queste soluzioni, oltre a linee guida strategiche e crediti tramite il programma AWS Activate. L'accesso ai finanziamenti ha consentito loro di sperimentare l'approccio ispirato alla natura nel cloud AWS senza la barriera dei costi iniziali. Il supporto tecnico personalizzato del team di Startup AWS ha inoltre consentito all'azienda di progredire e pubblicare rapidamente i risultati.
La scelta delle istanze Amazon EC2 giuste è solo uno dei modi in cui sta potenziando la ricerca: grazie al noleggio di istanze con blocchi di capacità oppure on demand l'azienda può rimanere agile e selezionare le migliori in qualsiasi momento. Questo approccio alla potenza di calcolo ha inoltre contribuito a ridurre i costi e l'ingombro di memoria rispetto a quello che sarebbe stato necessario per i metodi di discesa del gradiente. Akiba ha commentato: “AWS comprende perfettamente il nostro carico di lavoro e gli obiettivi che stiamo cercando di ottenere. Ci ha aiutato a superare rapidamente le sfide, come i problemi di capacità”.
Ispirata dalla loro ambizione e intelligenza, AWS supporta Sakana AI sin dall'inizio. Come afferma Yoshitaka Haribara, Solutions Architect presso AWS: “È un piacere lavorare con un team così talentuoso e al massimo della forma. Siamo felici di vedere risultati entusiasmanti dalla loro ricerca e speriamo che AWS possa continuare a sostenere il loro impegno offrendo risorse, competenze e pensiero creativo.”
Akiba ha osservato come la partnership e i servizi di AWS abbiano consentito all'azienda di partire con il piede giusto: “Siamo un team piuttosto piccolo, quindi non avevamo un ingegnere di piattaforma per configurare un cluster. I servizi AWS sono davvero facili da utilizzare e ciò ha semplificato l'esplorazione della nostra ricerca.”
Esplorazione di nuove frontiere dell'IA
Sebbene l'ambito dell'IA generativa sia fortemente competitivo e in continua evoluzione, la ricerca di Sakana AI promette di accelerare ulteriormente i progressi. “In questo momento, c'è concorrenza tra modelli proprietari e modelli open source e molti pensano che i primi siano all'avanguardia. Tuttavia, credo che la nostra ricerca possa essere un punto di svolta per accelerare lo sviluppo di modelli open source e sbloccare nuove competenze nella comunità”, afferma Akiba.
Sakana AI continua a ricercare avidamente come le nuove tecniche possano creare cicli di innovazione più rapidi. Ma, come sottolinea Jones, non sono interessati a ricompense immediate: “Il nostro approccio esplorativo a lungo termine rende molto più difficile vedere come sarà il futuro. Ma sono molto a mio agio con questo rischio perché è estremamente eccitante esplorare argomenti affascinanti.”
Mentre Sakana AI promuove più progetti, sta esaminando come altri servizi AWS possono supportare il proof of concept, ad esempio utilizzando Amazon Bedrock per scalare l'uso di modelli di fondazione come Claude di Anthropic. Oltre alle tecniche di fusione dei modelli, l'azienda sta anche studiando come far evolvere i sistemi intelligenti basati su agenti e AWS sostiene la sua visione in questo ambito entusiasmante.
Jones nutre grandi speranze sulla base dell'attuale tasso di avanzamento della tecnologia: “Poiché la quantità di calcolo utilizzata per addestrare i modelli continua a raddoppiare ogni sei mesi, potremmo raggiungere l'intelligenza di livello umano se continuiamo a migliorare gli algoritmi di addestramento e a ottimizzare il modo in cui li inseriamo in un agente. Se poi saremo in grado di attivare 10.000 agenti di IA per risolvere un problema, potremo portare a termine un paio d'anni di ricerca scientifica in una settimana.” Dall'automazione della scoperta di farmaci al miglioramento delle operazioni di base nell'informatica, questa ricerca potrebbe risolvere alcuni dei problemi più difficili al mondo.
La collaborazione con partner come AWS è stata fondamentale per il percorso di Sakana AI ed è solo l'inizio del valore a lungo termine che deve ancora sbloccare. I loro consigli per altre startup che desiderano espandere il potenziale dell'IA generativa? Jones vorrebbe vedere altri fondatori sfruttare la loro libertà approfondendo la tecnologia: “Siate ambiziosi con le vostre idee. Non lanciatevi nella corsa all'oro e non lanciate una prima versione di un'app solo per il gusto di essere i primi: prendetevi il tempo necessario per esplorarla.”
Kan Kato
Kan Kato è Startup Business Development Manager presso AWS e dimostra il suo impegno a promuovere il successo e l'innovazione delle startup attraverso partnership strategiche con investitori in capitali di rischio, acceleratori e iniziative di sviluppo aziendale. Oltre a lavorare per le startup, gli piace anche giocare a calcio e allenarsi per il triathlon.
Arata Yanase
Arata Yanase è Startup Account Manager presso AWS Giappone. Con una precedente carriera come Addetto alle vendite e allo sviluppo aziendale in una startup fintech, ha guidato le misure per lo sviluppo dei commercianti e la crescita dei servizi al fine di acquisire utenti.
Yoshitaka Haribara
Yoshitaka Haribara è Senior Startup ML Solutions Architect presso AWS Giappone. In questo ruolo, Yoshitaka aiuta le startup clienti a innovare nell'IA generativa su AWS. Nel tempo libero, Yoshitaka ama suonare la batteria.
Com'era questo contenuto?