Scelta del modello di fondazione corretto per la tua startup

Com'era questo contenuto?

Quando le startup integrano l'IA generativa nei loro prodotti, la selezione di un modello di fondazione (FM) è uno dei primi e più importanti passaggi. Un modello di fondazione è un modello di machine learning (ML) di grandi dimensioni che viene pre-addestrato su una grande quantità di dati su larga scala. Il risultato è un modello che può essere adattato a un'ampia gamma di attività a valle.

La selezione del modello ha implicazioni strategiche sul modo in cui viene costruita una startup. Tutto, dall'esperienza utente e dal go-to-market, alle assunzioni e alla redditività, può essere influenzato dal modello scelto. I modelli variano in base a una serie di fattori, tra cui:

  • Livello di personalizzazione: la possibilità di modificare l'output di un modello con nuovi dati, che vanno dagli approcci basati sui suggerimenti alla riqualificazione completa del modello
  • Dimensioni del modello: quante informazioni ha appreso il modello in base al numero di parametri
  • Opzioni di inferenza: dall’implementazione autogestita alle chiamate API
  • Accordi di licenza: alcuni accordi possono limitare o vietare l'uso commerciale
  • Finestre contestuali: quante informazioni possono contenere un singolo prompt
  • Latenza: quanto tempo impiega un modello per generare un output

Le sezioni seguenti mostrano cosa prendere in considerazione quando si seleziona un FM per soddisfare le esigenze della propria startup.

Benchmark specifici dell'applicazione

Quando si valutano le prestazioni di diversi FM per il proprio caso d'uso, una fase fondamentale del processo è la definizione di una strategia di riferimento. Questo ti aiuta a quantificare in che misura il contenuto corrisponde alle tue aspettative.

"Esiste un gran numero di modelli, che vanno dai lettori closed source... ai modelli open source come Dolly, Alpaca e Vicuna. Ciascuno di questi modelli presenta i propri compromessi: è fondamentale scegliere il modello migliore per il lavoro", ha spiegato Noa Flaherty, Chief Technology Officer (CTO) e co-fondatrice di Vellum. "Abbiamo aiutato le aziende a implementare un'ampia varietà di casi d'uso dell'intelligenza artificiale e abbiamo visto in prima persona che ogni caso d'uso ha requisiti diversi in termini di costi, qualità, latenza, finestra di contesto e privacy".

I benchmark generalizzati (come la valutazione olistica dei modelli linguistici di Stanford) sono un ottimo punto di partenza per alcune startup, perché aiutano a dare priorità ai modelli di fondazione con cui iniziare a sperimentare. Tuttavia, i benchmark generalizzati potrebbero non essere sufficienti per le startup che si concentrano sulla creazione di una base di clienti specifica.

Ad esempio, se il modello deve riepilogare gli appuntamenti medici o il feedback dei clienti, il modello deve essere valutato in base alla sua capacità di svolgere queste attività specifiche. «Per eseguire benchmark personalizzati, è necessario un flusso di lavoro per una rapida sperimentazione, in genere tramite tentativi ed errori in un'ampia varietà di scenari. È normale adattare eccessivamente il proprio modello/richiesta a uno specifico caso di test e pensare di avere il modello giusto, per poi rischiare che non funzioni una volta in produzione», consiglia Noa. Il benchmarking personalizzato può includere tecniche come il calcolo dei punteggi BLEU e ROUGE. Si tratta di due metriche che aiutano le startup a quantificare il numero di correzioni necessarie da applicare al testo generato dall'intelligenza artificiale prima che venga approvato per l'uso in applicazioni human-in-the-loop.

I parametri di qualità e la valutazione dei modelli sono fondamentali, motivo per cui Noa ha fondato Vellum in primo luogo. Questa startup sostenuta da Y Combinator concentra la propria offerta di prodotti sulla sperimentazione. Secondo Noa, "Più si riesce a confrontarsi/contrapporre modelli su una varietà di casi che assomigliano a quelli che vedrete in produzione, meglio sarà una volta entrati in produzione".

I modelli più piccoli e costruiti ad hoc sono in aumento

Una volta stabiliti i benchmark di qualità, puoi iniziare a sperimentare l'utilizzo di modelli più piccoli pensati per attività specifiche, come seguire le istruzioni o un riepilogo. Questi modelli appositamente progettati possono ridurre in modo significativo il numero di parametri di un modello, mantenendone al contempo la capacità di eseguire attività specifiche del dominio. Ad esempio, la startup GoCharlie ha collaborato con SRI per sviluppare un modello multi-modale specifico per il marketing con parametri 1B.

"I modelli adatti a tutti non risolveranno mai veramente le esigenze dell'utente finale, mentre i modelli progettati specificamente per soddisfare tali esigenze saranno i più efficaci", ha spiegato Kostas Hatalis, amministratore delegato (CEO) e co-fondatore di GoCharlie. "Riteniamo che i modelli creati appositamente su misura per settori verticali specifici, come il marketing, siano fondamentali per comprendere le reali esigenze degli utenti finali".

La comunità di ricerca open source sta promuovendo molta innovazione attorno a modelli più piccoli e appositamente costruiti come  Alpaca di Stanford o Falcon 40B del Technology Innovation Institute. Open LLM Leaderboard  di Hugging Face aiuta a classificare questi modelli open source in base a una serie di benchmark generali. Questi modelli più piccoli offrono metriche di riferimento comparabili sulle attività che seguono le istruzioni, con una frazione del numero di parametri e delle risorse di addestramento.

Man mano che le startup personalizzano i propri modelli per attività specifiche del dominio, i modelli di fondazione open source consentono loro di personalizzare e perfezionare ulteriormente i propri sistemi con i propri set di dati. Ad esempio, le soluzioni  Parameter-Efficient Fine-tuning (PERT) di Hugging Face hanno dimostrato come la regolazione di un numero limitato di parametri del modello, bloccando al contempo la maggior parte degli altri parametri degli LLM pre-addestrati, possa ridurre notevolmente i costi di calcolo e di archiviazione. Tali tecniche di ottimizzazione basate sull'adattamento del dominio in genere non sono possibili con un modello di fondazione proprietario basato su API, che può limitare la profondità alla quale una startup può creare un prodotto differenziato.

Concentrare l'utilizzo su attività specifiche rende inoltre le conoscenze pre-addestrate della FM in settori come la matematica, la storia o la medicina, generalmente inutili per le startup. Alcune startup scelgono di limitare intenzionalmente l'ambito del modello di fondazione a un dominio specifico implementando dei limiti, come NeMo Guardrails di Nvidia, all'interno dei loro modelli. Tali limiti aiutano a prevenire allucinazioni nei modelli: risultati irrilevanti, errati o inaspettati.

La flessibilità dell'inferenza è importante

Un'altra considerazione fondamentale nella selezione del modello è come il modello può essere utilizzato. I modelli open source, così come i modelli proprietari autogestiti, garantiscono la flessibilità necessaria per personalizzare come e dove vengono ospitati i modelli. Il controllo diretto dell'infrastruttura di un modello può aiutare le startup a garantire l'affidabilità delle proprie applicazioni con best practice come il dimensionamento automatico e la ridondanza. La gestione dell'infrastruttura di hosting aiuta anche a garantire che tutti i dati generati e utilizzati da un modello siano contenuti in ambienti cloud dedicati che possono rispettare i requisiti di sicurezza stabiliti dalla startup.

I modelli più piccoli e appositamente progettati che abbiamo menzionato in precedenza richiedono anche un hardware a minore intensità di elaborazione, aiutando le startup a ottimizzare l'economia delle unità e le prestazioni in termini di prezzo. In un esperimento recente, AWS ha registrato un risparmio fino al 50% sui costi di inferenza utilizzando istanze  AWS Graviton3 basate su ARM per modelli open source rispetto a istanze Amazon Elastic Compute Cloud (EC2) simili.

Questi processori AWS Graviton3 consumano anche fino al 60% di energia in meno a parità di prestazioni rispetto alle istanze Amazon EC2 comparabili, il che aiuta le startup che stanno considerando l'impatto ambientale della scelta di hardware di inferenza affamato di energia. Uno studio del World Economic Forum ha dettagliato il consumo energetico dei data center. Un tempo considerate un'esternalità, le implicazioni ambientali sono diventate una priorità per molti e AWS consente alle startup di quantificare il proprio impatto ambientale attraverso offerte come Carbon Footprint Reporting, che aiuta le aziende a confrontare l'efficienza energetica di diverse selezioni di hardware.

Conclusioni

Aaron Melgar

Aaron Melgar

Aaron contribuisce allo sviluppo dell'ecosistema delle startup e del venture capital nel campo dell'IA/ML presso AWS, con un focus sulla crescita delle aziende nella fase iniziale. È un ex fondatore, Product Manager di Serie-A, Direttore di Machine Learning e Consulente Strategico. Americano di prima generazione, ama il tennis, il golf e i viaggi, e nutre un interesse particolare nello scambio di raccomandazioni di audiolibri su temi legati all'economia, alla psicologia o al business.

Com'era questo contenuto?