Com'era questo contenuto?
In primo piano: Datagen crea dati sintetici ad alta fedeltà per risolvere problemi incentrati sull'uomo
Quando Gil Elbaz e Ofir Zuk hanno fondato Datagen nel 2018, lo scopo era reinventare il processo frammentato di come i clienti ottengono dati per la formazione in rete di visione artificiale. Più specificamente, volevano portare la simulazione dei dati a ogni team di visione artificiale in modo continuo e scalabile.
Poiché le prestazioni del modello IA si basano sia sulla qualità del modello che sulla qualità dei dati utilizzati per addestrarlo, è essenziale disporre di una grande quantità di dati validi e spesso è difficile raccogliere quanto necessario. I dati del mondo reale tendono anche a essere problematici in termini di velocità di acquisizione, precisione, costi e distorsione. "Qualcuno raccoglierà dati [reali] di identità diverse, ad esempio per i volti, e non raccoglierà abbastanza dati su determinate etnie, età o sesso", spiega Shay Navon, Senior Product Marketing Manager di Datagen. "E poi ottieni questo pregiudizio".
Per aiutare i team di visione artificiale a combattere i pregiudizi, Datagen offre un modo unico per generare i dati utilizzando algoritmi informatici. I suoi dati sintetici sono simili ai dati del mondo reale sia dal punto di vista statistico che matematico, ma possono essere generati rapidamente, con meno spese e sono esenti da errori umani. Invece di affidare a un essere umano l'incombente compito di raccogliere e annotare i dati manualmente, un compito laborioso che richiede di scattare una foto di un volto e quindi di etichettarne i lineamenti a mano, i dati sintetici vengono generati su vasta scala, con annotazioni di verità di base integrate, come la direzione degli occhi, che sarebbe impossibile da determinare per un essere umano. Il risultato è un'annotazione dei dati quanto più accurata e dettagliata senza la difficoltà dell'etichettatura manuale.
"Stiamo simulando il mondo per portare l'IA in produzione più velocemente", afferma Karine Regev, vicepresidente marketing di Datagen. "Portare l'IA in produzione è di per sé una sfida irrisolta per la maggior parte delle aziende, quindi la stiamo rendendo più professionale e accurata, risolvendo problemi come la privacy e la distorsione nei dati, che sono i maggiori elementi di rallentamento nell'IA moderna".
Datagen offre ai clienti una piattaforma self-service che utilizza simulazioni 3D per addestrare i propri algoritmi. "Per addestrare un modello, sono necessarie milioni di immagini diverse", afferma Regev. "Ed è proprio qui che entriamo in gioco noi. [I clienti Datagen] hanno la possibilità di controllare le scene, lo sfondo, le diverse modalità, le diverse etichette di cui hai bisogno, l'illuminazione, il genere, l'etnia, tutto".
Oltre a generare dati diversi che sembrano reali, scalabili e perfetti in termini di pixel, Datagen offre ai propri clienti la massima riservatezza. "È completamente conforme alla privacy, poiché i dati non contengono PII (informazioni di identificazione personale)", afferma Shay Navon a proposito dei dati sintetici. "Nessuno può dire: 'Questa è una persona che stiamo usando e che rappresenta un problema dal punto di vista della privacy'. La nostra esperienza e i nostri dati incentrati sull'uomo si concentrano su diversi settori, dal rilevamento dei punti di riferimento facciali, alla stima dello sguardo e all'analisi delle espressioni fino alle pose complete del corpo umano, alle parti del corpo come occhi, mani, ecc."
In un futuro molto prossimo, si prevede che sarà più comune addestrare modelli con dati sintetici piuttosto che raccoglierli da fonti reali. Di conseguenza, Datagen è cresciuta rapidamente, passando da circa 40 dipendenti a quasi 100 negli ultimi nove mesi. "Stiamo lavorando con alcune delle più grandi aziende tecnologiche del mondo in diversi settori verticali", afferma Regev. "Risolvendo diversi casi d'uso, da AR/VR/metaverso al monitoraggio dei conducenti per l'automotive in cabina, alla sicurezza domestica e agli uffici intelligenti".
Per soddisfare questa nuova domanda, Datagen ha deciso di passare all'architettura cloud. La loro priorità era la scalabilità utilizzando gli ultimi modelli di GPU. Dopo un'analisi approfondita dei fornitori di cloud, si sono rivolti ad AWS, determinati a sviluppare il loro sistema su Kubernetes. Datagen ha progettato un sistema software di pianificazione personalizzato chiamato Agni che si integra con Elastic Kubernetes Service (Amazon EKS) e utilizza il dimensionamento automatico Kubernetes e i gruppi con dimensionamento automatico AWS.
Agni e l'intera piattaforma di generazione dati Datagen si affidano ora a istanze spot di CPU e GPU, il che li ha aiutati a ridurre i costi e a creare un sistema più efficiente. Inoltre, consente loro di mantenere un sistema relativamente piccolo che può crescere dinamicamente fino a centinaia di migliaia di lavori simultanei e ridursi su richiesta, dando vita a una piattaforma self-service ospitata da AWS.
Guardando al futuro, il team di Datagen prevede che la necessità di dati sintetici continuerà a crescere. "Stiamo riscontrando una forte domanda, sia in termini di trazione che di prospettive, la necessità di una leadership di pensiero, la necessità di tecnologia e di una soluzione come la nostra che possa effettivamente guidare la conversazione quando si tratta di dati sintetici", afferma Regev.
AWS Editorial Team
Il team Content Marketing di Startup AWS collabora con startup di varie dimensioni e in ogni settore, al fine di sviluppare contenuti eccezionali che siano informativi, coinvolgenti e autentici fonti di ispirazione.
Com'era questo contenuto?