Bagaimana konten ini?
Alam sebagai Panduan: Bagaimana Sakana AI Mengubah Pembangunan Model
Ledakan kecerdasan buatan (AI) generatif telah menciptakan laju perubahan yang luar biasa cepat. Kini, perusahaan-perusahaan sangat fokus untuk menghadirkan model beperforma lebih tinggi, dengan banyak model bahasa besar (LLM) baru dan yang ditingkatkan bermunculan setiap hari. Model Transformator yang telah teruji menjadi inti dari perkembangan pesat AI generatif, sehingga para pendiri dapat dengan cepat menskalakan dan merilis LLM baru.
Namun, peningkatan ini sering kali memiliki konsekuensi, dengan setiap versi baru menuntut lebih banyak daya pemrosesan dan sumber daya. Versi LLM yang lebih lama cepat tersingkir oleh model-model baru yang lebih besar dan membutuhkan komputasi yang lebih intensif. Di tengah kelangkaan GPU global, yang membatasi skala praktis pelatihan model, co-founder David Ha dan Llion Jones tertarik untuk mencari cara yang lebih efisien dalam mendorong batas AI. Mereka memulai penelitian untuk mengeksplorasi teknik-teknik kreatif dalam pengembangan model fondasi (FM) yang terinspirasi oleh sumber daya yang berbeda—yaitu kekuatan alam.
Sakana AI, startup mereka yang berbasis di Tokyo, kini menjadi pelopor tren baru dalam pelatihan model AI dengan menciptakan LLM canggih yang dikembangkan dari model yang sudah ada. Sejak mendirikan perusahaan pada tahun 2023, penelitian mereka sudah membawa inovasi baru dengan memaksimalkan sumber daya yang sering terabaikan. Dengan menerapkan konsep klasik seperti evolusi dan seleksi alam, perusahaan ini bergerak menuju masa depan di mana model fondasi (FM) secara otomatis mewarisi karakteristik terkuat dari pendahulunya. Visi mereka? Metode pelatihan di mana model-model terus berevolusi dan beradaptasi dengan lingkungan yang dinamis.
Menyambut generasi baru AI
Dengan semangat kewirausahaan yang kuat, startup ini tidak hanya menunggu perubahan berikutnya dalam AI generatif—mereka justru merangkul ketidakpastian untuk menemukan inovasi berikutnya. Jones, Chief Technology Officer di Sakana AI, menjelaskan mengapa mereka meninggalkan posisi di perusahaan teknologi besar untuk mendirikan Sakana AI: “David dan saya merasa tidak bisa menjelajahi penelitian spekulatif jangka panjang yang ingin kami kejar, jadi kami sadar bahwa kami harus memulai usaha kami sendiri.” Melihat pola historis dalam perkembangan teknologi, co-founder menemukan peluang untuk membuat penemuan yang signifikan.
Jones menjelaskan, “Menurut saya, penelitian AI melewati fase eksplorasi dan eksploitasi. Orang mencoba berbagai pendekatan sampai menemukan sesuatu yang berhasil—lalu semua orang beralih ke eksploitasi teknologi tersebut. Namun, dengan begitu banyak perhatian pada bagaimana model Transformator melatih AI generatif, ini juga berarti kita tidak banyak mengeksplorasi hal-hal di luar pendekatan itu.”
Model Transformator merupakan terobosan dalam arsitektur deep learning pada tahun 2017 dan sejak saat itu menggemparkan dunia. Tidak seperti model-model sebelumnya, Transformator dapat dilatih menggunakan set data yang jauh lebih besar, digunakan untuk berbagai tugas, dan memiliki pemahaman yang lebih akurat terhadap teks yang dibaca dan ditulisnya. Namun, dengan kemampuan skalabilitas yang jauh lebih besar, muncul kebutuhan akan daya komputasi yang lebih tinggi, sehingga para produsen perangkat keras kesulitan untuk membuat chip AI dengan cukup cepat guna memenuhi permintaan.
Sakana AI sedang mengeksplorasi metode pelatihan model yang lebih berkelanjutan dan alternatif. Takuya Akiba, Research Scientist di Sakana AI, menjelaskan: “Semua orang cenderung mengarah pada tujuan yang serupa saat melatih model. Akibatnya, kita tidak melihat banyak perbedaan dalam hasil yang dicapai. Di Sakana AI, kami menciptakan paradigma baru yang terinspirasi oleh alam. Hal ini memungkinkan kami menemukan aplikasi baru yang tidak mungkin dicapai hanya dengan meningkatkan skala.”
Menggali kebijaksanaan alam
Dinamai dari kata Jepang untuk ikan, ‘Sakana’ merujuk pada teknik mereka yang terinspirasi oleh alam dan pengaruh evolusi. Logo mereka dengan tepat mencerminkan metode inovatif ini, menggambarkan sekelompok ikan yang berenang ke satu arah sementara seekor ikan merah dengan berani berenang ke arah yang berlawanan. Gambar ini juga menangkap gagasan tentang kecerdasan kolektif yang menginspirasi pemikiran mereka—yakni gagasan bahwa model yang lebih kecil dapat berinteraksi secara lebih efisien dengan lebih sedikit informasi dan sumber daya dibandingkan dengan model besar dan padat yang mengalirkan banyak informasi.
Dengan teknologi yang mencapai titik perubahan penting, Sakana AI sedang menguji penerapan komputasi evolusioner pada model fondasi (FM). Teknik yang umum digunakan untuk melatih dan mengoptimalkan model, yakni gradient descent—memiliki biaya komputasi yang tinggi, sama seperti model Transformator. Namun, jika Anda mengira efisiensi sumber daya hanya diperlukan untuk perjalanan startup mereka, itu tidak sepenuhnya benar. Tim Sakana AI melihat efisiensi ini sebagai keuntungan strategis, yang memungkinkan mereka berpikir kreatif, memaksimalkan sumber daya, dan memupuk inovasi. Seperti yang dikatakan Jones, “Saya percaya batasan ini mendorong kami menemukan hal-hal yang lebih menarik.”
“Filosofi kami adalah ‘pembelajaran selalu unggul’. Dan untuk mempelajari sesuatu, Anda tidak bisa hanya mengandalkan algoritma yang paling populer. Anda harus menggunakan berbagai teknik, seperti komputasi evolusioner, untuk menjelajahi berbagai kemungkinan,” tambahnya. Dengan dukungan teknis strategis dari AWS, Sakana AI telah menerapkan gagasan-gagasan yang terinspirasi dari alam ke dalam teknologi, dan mereka sudah mulai melihat hasil dari kerja keras mereka.
Membuat gebrakan dengan penggabungan model evolusioner
Salah satu terobosan penting yang dicapai Sakana AI adalah pendekatan inovatif mereka dalam penggabungan model. Tim menyadari bahwa ada banyak nilai yang bisa dimanfaatkan dari model-model yang ada, tetapi ratusan ribu model sering kali tidak digunakan atau ditinggalkan begitu saja ketika digantikan oleh versi baru. “Ada lautan besar model LLM unik dan sumber terbuka yang sudah tersedia,” kata Akiba.
Dengan menggabungkan beberapa model, bukan melatihnya dari nol, mereka dapat mengambil kualitas terbaik dari setiap model untuk menciptakan satu model baru yang lebih kuat. Meskipun penggabungan model bukanlah konsep baru—banyak yang telah bereksperimen dengan ‘meretas’ model untuk membuat LLM yang lebih spesifik—hal yang baru adalah bagaimana Sakana AI menerapkan algoritma yang terinspirasi alam untuk mengotomatiskan proses tersebut.
Lihat saja proses seleksi alam. Spesies berevolusi dengan cara mewariskan gen yang membantu mereka beradaptasi dan berkembang di lingkungan mereka, sementara sifat-sifat yang mengancam kelangsungan hidup secara alami akan hilang. Algoritma evolusioner Sakana AI bekerja dengan cara serupa—menemukan kombinasi optimal dari berbagai bagian FM untuk menghasilkan FM baru yang secara alami terpilih untuk beperforma baik dalam aplikasi tertentu. Model baru ini mewarisi sifat unggul dari model sebelumnya, sesuai dengan yang ditentukan oleh pengguna. Pendekatan ini sangat berbeda dari metode ala Frankenstein yang hanya menyatukan elemen-elemen model secara sembarangan.
Teknik penggabungan model sebelumnya mengandalkan pengalaman manusia, pengetahuan spesifik, dan intuisi—semua ini memiliki batas. “Dengan mengembangkan berbagai cara untuk menggabungkan algoritma, kita dapat menghasilkan model gabungan yang lebih baik daripada yang bisa dirancang oleh manusia secara manual,” jelas Llion. “Setiap kali Anda bisa membuat komputer untuk mencari solusi di antara berbagai kemungkinan, itu menjadi keunggulan. Komputer bisa bekerja lebih cepat, mencoba lebih banyak opsi, dan memiliki kesabaran yang jauh lebih besar dibandingkan manusia.”
Hanya FM terkuat yang bertahan
Keberagaman model terbuka dan tugas AI generatif makin meningkat, yang membuat pendekatan Sakana AI yang lebih sistematis dalam penggabungan model menjadi semakin relevan. Seperti yang dikatakan Akiba, “Ada hampir tak terhitung cara untuk menggabungkan berbagai model—karena itu kita memerlukan model optimisasi heuristik.” Dalam eksperimen mereka, Sakana AI membiarkan proses evolusi berjalan selama ratusan generasi, di mana hanya model dengan skor tertinggi yang bertahan dan melanjutkan ke generasi berikutnya.
Pendekatan Penggabungan Model Evolusioner telah terbukti mampu mengembangkan FM dengan cara yang sering tidak terduga, tetapi sangat efektif. Sebagai contoh, meskipun banyak model sumber terbuka tersedia di Jepang, sebelumnya tidak ada model yang mampu menangani matematika karena tidak ada set data matematika dalam bahasa Jepang. Alih-alih memulai dari nol dan melatih model baru, Sakana AI menggabungkan model yang fasih berbahasa Jepang dengan model bahasa Inggris yang ahli dalam matematika, meskipun tidak memahami bahasa Jepang.
Hasilnya adalah LLM canggih yang memiliki kemampuan penalaran dalam bahasa Jepang yang lebih baik dan keterampilan matematika yang kuat—model ini terbukti sangat unggul dalam uji coba di kedua bidang tersebut. Menggabungkan model-model ini secara manual akan menjadi tugas yang sangat rumit, terutama saat mengelola domain yang begitu berbeda. Dengan mengotomatiskan proses ini, startup tersebut mampu dengan cepat mengubah FM yang ada dan menghadirkan kualitas unik mereka ke berbagai budaya dengan lebih efisien.
Sakana AI menemukan bahwa algoritma evolusioner tidak hanya mendukung LLM berbasis teks, karena mereka juga berhasil menggabungkan LLM dengan model visi-bahasa Jepang. Hasilnya, model yang dihasilkan mampu meningkatkan akurasi dalam menjawab pertanyaan terkait gambar dan bahkan mempelajari nuansa serta pengetahuan budaya khusus Jepang. Selain itu, tim juga mendapatkan hasil yang menjanjikan ketika menerapkan metode ini pada berbagai model difusi untuk pembuatan gambar.
Kekuatan untuk beradaptasi dan belajar
Menciptakan terobosan baru dalam AI generatif membutuhkan keahlian khusus yang didukung oleh fondasi teknis yang kokoh, termasuk solusi yang fleksibel dan hemat biaya. AWS memberi Sakana AI solusi tersebut, serta panduan strategis dan kredit melalui program AWS Activate. Akses ke pendanaan ini memungkinkan mereka bereksperimen dengan pendekatan berbasis alam di AWS Cloud tanpa harus menghadapi kendala biaya awal. Dukungan teknis yang dipersonalisasi dari tim AWS Startups juga mempercepat kemajuan mereka, sehingga mereka dapat segera memublikasikan hasil penelitian.
Memilih instans Amazon EC2 yang tepat adalah salah satu cara mereka mendukung penelitian—dengan menyewa instans melalui Sesuai Permintaan atau Blok Kapasitas, mereka bisa tetap gesit dan memilih yang paling sesuai kapan pun diperlukan. Pendekatan ini tidak hanya membantu mereka tetap fleksibel tetapi juga mengurangi biaya dan penggunaan memori secara signifikan dibandingkan metode gradient descent. Akiba mengatakan, “AWS sangat memahami kebutuhan beban kerja kami dan tujuan yang ingin dicapai. Mereka membantu kami dengan cepat mengatasi tantangan, termasuk masalah kapasitas.”
Terinspirasi oleh ambisi dan kecerdasan mereka, AWS telah mendukung Sakana AI sejak awal. Yoshitaka Haribara, Solutions Architect di AWS, mengatakan, “Merupakan kehormatan bekerja dengan tim yang sangat berbakat dan berada di puncak kemampuannya. Kami sangat antusias melihat hasil-hasil yang luar biasa dari penelitian mereka, dan kami berharap AWS dapat terus mendukung upaya mereka dengan menyediakan sumber daya, keahlian, dan pemikiran kreatif.”
Akiba menjelaskan bagaimana kemitraan dan layanan AWS membantu perusahaan memulai dengan cepat: “Kami adalah tim yang relatif kecil, jadi kami tidak memiliki rekayasawan platform untuk mengatur klaster. Layanan AWS sangat mudah digunakan, yang membuat eksplorasi penelitian kami menjadi jauh lebih sederhana.”
Menjelajahi batas AI baru
Meskipun ruang AI generatif sangat kompetitif dan berkembang dengan cepat, penelitian Sakana AI berjanji mempercepat kemajuan lebih jauh lagi. “Saat ini, ada persaingan antara model berpemilik dan model sumber terbuka, serta banyak yang menganggap model berpemilik lebih unggul. Namun, saya percaya bahwa penelitian kami dapat menjadi pengubah permainan yang mempercepat pengembangan model sumber terbuka dan membuka potensi keterampilan baru dalam komunitas,” ujar Akiba.
Sakana AI terus giat meneliti bagaimana teknik-teknik baru dapat mempercepat siklus inovasi. Namun, seperti yang diungkapkan Jones, mereka tidak mengejar hasil cepat: “Pendekatan eksploratif jangka panjang kami membuat sulit untuk melihat apa yang ada di masa depan. Tapi saya sangat nyaman dengan risiko itu, karena sangat menarik bisa menjelajahi topik-topik yang menarik.”
Seiring dengan meningkatnya momentum Sakana AI dalam berbagai proyek, mereka tengah mempelajari bagaimana layanan AWS lainnya dapat mendukung uji konsep, seperti menggunakan Amazon Bedrock untuk meningkatkan penggunaan model fondasi mereka seperti Claude dari Anthropic. Di luar teknik penggabungan model, perusahaan ini juga sedang meneliti bagaimana mengembangkan sistem cerdas berbasis agen, dan AWS mendukung visi mereka dalam ruang yang penuh potensi ini.
Jones optimis dengan laju perkembangan teknologi saat ini: “Karena daya komputasi untuk melatih model terus berlipat ganda setiap enam bulan, kita mungkin bisa mencapai kecerdasan setara manusia jika kita terus memperbaiki algoritma pelatihan dan mengoptimalkan penggunaannya dalam agen cerdas. Jika kita dapat menjalankan 10.000 agen AI untuk memecahkan satu masalah, mungkin kita bisa menyelesaikan penelitian ilmiah yang biasanya memakan waktu bertahun-tahun hanya dalam seminggu.” Mulai dari otomatisasi penemuan obat hingga meningkatkan operasi inti dalam ilmu komputer, penelitian ini berpotensi memecahkan beberapa masalah paling sulit di dunia.
Bermitra dengan AWS telah menjadi bagian penting dari perjalanan Sakana AI—dan ini baru permulaan dari nilai jangka panjang yang akan mereka wujudkan. Saran mereka untuk startup lain yang ingin memperluas potensi AI generatif? Jones berharap para pendiri lainnya memanfaatkan kebebasan mereka untuk lebih mendalami teknologi: “Jangan takut untuk memiliki ide yang ambisius. Jangan tergesa-gesa mengejar tren atau merilis versi pertama aplikasi hanya demi menjadi yang pertama—luangkan waktu untuk benar-benar mengeksplorasi.”
Kan Kato
Kan Kato adalah Manajer Pengembangan Bisnis Startup di AWS, yang menunjukkan komitmennya untuk mendorong keberhasilan dan inovasi startup melalui kemitraan strategis dengan pemodal ventura, akselerator, dan inisiatif pengembangan bisnis. Selain bekerja untuk startup, ia juga gemar bermain sepak bola dan berlatih triatlon.
Arata Yanase
Arata Yanase adalah Manajer Akun Startup di AWS Jepang. Ia sebelumnya bekerja di bidang Penjualan dan Pengembangan Bisnis di Startup fintech. Di sana, ia memimpin inisiatif untuk pengembangan pedagang dan pertumbuhan layanan guna mengakuisisi pengguna.
Yoshitaka Haribara
Yoshitaka Haribara adalah Arsitek Solusi ML Startup Senior di AWS Jepang. Dalam perannya ini, Yoshitaka membantu pelanggan startup berinovasi dalam AI generatif di AWS. Di waktu luangnya, Yoshitaka gemar bermain drum.
Bagaimana konten ini?