自然に従う: Sakana AI がモデル構築を変革する方法

このコンテンツはいかがでしたか?

生成 AI の爆発的な普及により、驚異的なペースで変化が起こっています。現在、企業はより高性能なモデルを実現することに非常に注力しており、日々膨大な数の新たな大規模言語モデル (LLM) や改良された LLM が登場しています。十分な試行を重ねたトランスフォーマーモデルは、生成 AI ブームの中心であり、創業者が新しい LLM を迅速にスケールおよびリリースするのに役立っています。

ただし、これらのアップグレードにはコストがかかることが多く、新たなバージョンが登場するたびにより多くの処理能力とリソースが必要になります。一方、古い LLM バージョンは、より大きく、かつ、コンピューティングを多用するモデルにすぐに見劣りするようになる可能性があります。モデルトレーニングの実用的なスケーリングに限界をもたらした世界的な GPU 不足を背景に、共同創業者である David Ha 氏と Llion Jones 氏は、AI の限界を押し広げるより効率的な方法を見つけたいと考えていました。両氏は、異なる力の源、すなわち、自然の力に触発された基盤モデル (FM) の開発の創造的な手法を探求する研究ジャーニーに乗り出しました。

東京を拠点とするスタートアップである Sakana AI は現在、既存の LLM から生まれた最先端の LLM を作成することで、AI モデルトレーニングの新しいトレンドを先導しています。2023 年に会社を設立して以来、見落とされがちなリソースを最大限に活用することで、両氏の研究は既に新境地を開拓しています。進化や自然淘汰などの古くからあるアイデアを使用して、同社は、FM が祖先の極めて強力な特性を自動的に継承するという未来に向けて邁進しています。モデルが常に進化し、変化する環境に適応するトレーニング方法をそのビジョンとしています。

新世代の AI を採用する

真の起業家精神にあふれたこのスタートアップは、生成 AI の分野における次の変化を単に待つだけではなく、未知のものを採り入れて次に何が起こるかを見出そうとしています。Sakana AI の Chief Technology Officer である Jones 氏は、自分たちが大手テクノロジー企業での役職を離れ、Sakana AI を立ち上げた理由を次のように説明しています。「David と私は、やりたいと考えていた長期的な投機的研究を探究しているわけではなかったので、自分たちだけで始めなければならないとわかっていました」。これらの共同創業者は、テクノロジー開発の歴史的パターンに気づき、有意義な発見をする機会を見出しました。

Jones 氏は次のように付け加えています。「AI 研究は、探索と活用の段階を経ると考えています。人々は、うまく機能するものを見つけるまで、さまざまなアプローチを試します。その後、皆が集中的にそのテクノロジーを活用します。しかし、トランスフォーマーモデルがどのように生成 AI をトレーニングするかについては誇張とも言える多くの宣伝文句を耳にしますが、それは私たちがそれ以外のことをそれほど探求していないことを意味します」。

2017 年における深層学習アーキテクチャのブレークスルーとなったトランスフォーマーモデルは、それ以来世界を席巻しています。以前のモデルとは異なり、トランスフォーマーははるかに大きなデータセットでトレーニングでき、さまざまなタスクに使用できるほか、読み書きするテキストをより正確に理解できます。しかし、スケーラビリティが大幅に高まることで、より多くの計算が必要になるため、ハードウェアメーカーは需要を満たすのに十分な速さで AI チップを製造できなくなりました。

Sakana AI は、より持続可能な代替モデルトレーニング方法を模索しています。Sakana AI の Research Scientist である秋葉拓哉氏は、次のように説明しています。「モデルをトレーニングする際には、誰もが同様の目標に収束していきます。そのため、結果に大きな違いは見られません。Sakana AI では、自然からインスピレーションを得た新しいパラダイムを生み出しています。これにより、スケールするだけでは実現できない新しいアプリケーションを見つけることができるようになります」。

Takuya Akiba, Research Scientist at Sakana AI

自然の知恵を活用する

日本語の「魚」にちなんで名付けられた「Sakana」は、自然からインスピレーションを得た手法と進化の影響を暗示しています。ロゴは、同社の先駆的な手法を適切に表しています。ある方向に泳ぐ魚の群れと、挑戦的に反対方向に泳ぐ赤い 1 匹の魚が描かれています。また、そのグラフィックは、同社の思考にインスピレーションをもたらす集合知の概念、すなわち、大量の情報を提供する大規模で高密度なモデルよりも、より小さなモデルの方がより少ない情報とリソースでより効率的にインタラクションできるという概念を捉えています。

テクノロジーが転換点を迎えている今、Sakana AI は進化的計算というアイデアを FM で試しています。モデルのトレーニングと最適化の確立された手法は勾配降下法として知られていますが、トランスフォーマーモデルと同様に、これは高い計算コストを伴います。ただし、スタートアップジャーニーを進める上でリソース効率が単なる必要な要素にとどまると想定するのは間違いです。Sakana AI チームは、既成概念にとらわれずに考え、使用可能なリソースを最大限に活用し、イノベーションを育むための戦略的利点としてリソース効率をとらえています。Jones 氏は次のように述べています。「この制約により、より興味深いものを思いつくことができると考えています」。

「当社の哲学は『学習は常に勝つ』です。そして、物事を学ぶには、最も人気のあるアルゴリズムを使用するだけでは不十分です。進化的計算などのさまざまな手法を使用して、これらのスペースを探る必要があるのです」と同氏は付け加えます。AWS の戦略的な技術サポートにより、Sakana AI は自然から得たアイデアをテクノロジーの領域に採り入れました。その成果は既に現れ始めています。

進化的モデルマージで波を起こす

これまでの重要なブレークスルーの 1 つに、モデルマージに対する Sakana AI の斬新なアプローチが挙げられます。チームは、現在のモデルから得られる価値は非常に大きいものの、新しいバージョンに置き換えられると何十万ものモデルが使用されなかったり、破棄されたりすることに気づきました。「既に、非常に多くのユニークなオープンソース LLM が存在しています」と秋葉氏は述べています。

さまざまなモデルをマージすることで、ゼロからトレーニングするのではなく、それぞれのモデルから極めて高い品質を取り出して、より強力な新しいモデルを作成できます。モデルのマージ自体は新しい概念ではありません。モデルを「ハッキング」して特殊な LLM を作成するという技術はこれまでも実験されてきました。何が新しいのかというと、それは Sakana AI が自然からインスピレーションを得たアルゴリズムを適用してプロセスを自動化する方法なのです。

自然淘汰のプロセスを考えてみましょう。種は時間をかけて進化し、環境に適応して繁栄するのに役立つ遺伝子を伝えてきました。一方、種の存続を脅かす特性は最終的に消滅します。同様に、Sakana AI の進化アルゴリズムは、FM のさまざまな部分の最適な組み合わせを見つけて、特定のアプリケーションで優れたパフォーマンスを発揮するように自然に選択された新しい FM を作成できます。新しいモデルは、ユーザーが指定した内容に基づいて、以前のモデルの優れた特性を継承します。これは、さまざまなモデルの要素をつなぎ合わせるフランケンシュタインのようなアプローチとはかけ離れています。

以前のモデルマージの手法は、人間の経験、ドメイン知識、直感に依拠していましたが、これらにはすべて限界があります。「アルゴリズムをマージするさまざまな方法を進化させることで、人間が手作業で設計するよりも優れたマージモデルを生み出すことができます」と Llion 氏は説明します。「コンピュータにソリューションのスペースを検索させることができれば、それは勝利を意味します。人間が手作業でそれをやろうとしても、コンピュータに勝つことはできません。なぜなら、コンピュータは、人間よりも速く実行したり、より多くのことを試したりでき、より忍耐強いからです」。

極めて高い適応力を備えた FM のみが生き残る

オープンモデルと生成 AI タスクの多様性は高まり続けており、Sakana AI のモデルマージに対するはるかに体系的なアプローチがますます重要になるでしょう。秋葉氏は次のように述べています。「さまざまなモデルを組み合わせる方法は無限にあると言ってもよいでしょう。だからこそ、これらのヒューリスティック最適化モデルが必要なのです」。Sakana AI は実験において、最高スコアのモデルが生き残り、次の世代につながるようにして、進化プロセスを数百世代にわたって実行しました。

進化的モデルマージのアプローチは、多くの場合において直感的ではないものの、非常に効果的な方法で FM を進化させることが既に実証されています。例えば、日本にはオープンソースモデルが豊富にありますが、日本語の数学データセットがないため、これまではどのモデルも数学を処理できませんでした。Sakana AI は、ゼロから始めて新しいモデルをトレーニングするのではなく、日本語に堪能なモデルと、数学は得意だが日本語は話せない英語モデルをマージしました。

その結果、強化された日本語推論と強力な数学能力を備えた最先端の LLM が誕生し、両方の分野でベンチマークに照らして非常に優れたパフォーマンスを発揮しました。これらのモデルを手動で組み合わせたとすれば、特にこのような異なるドメインを扱う場合は非常に困難だったことでしょう。プロセスを自動化することで、スタートアップである同社は既存の FM を迅速に変換し、その独自の品質をさまざまな文化にもたらすことができます。

Sakana AI は、進化的アルゴリズムがテキスト LLM をサポートするだけでなく、LLM を日本語の視覚言語モデルとうまくマージできるということも発見しました。実際、結果として得られたモデルは、画像関連の質問の精度を高め、日本に関するニュアンスや文化固有の知識を学習することさえできました。チームは、同じ方法をさまざまな画像生成拡散モデルに適用することで、有望な結果を得ることもできました。

適応して学習する力

生成 AI の分野で新境地を開くには、スペシャリストの専門知識と、柔軟でコスト効率の高いソリューションで構成される堅牢な技術基盤が必要です。AWS は、これらのソリューションを Sakana AI に提供するほか、AWS Activate プログラムを通じて戦略的なガイダンスとクレジットも提供しています。資金にアクセスできたことで、初期費用の障壁なしに、自然からインスピレーションを得たアプローチを AWS クラウドで実験することができました。AWS Startups チームによるパーソナライズされた技術サポートも、迅速に研究を進めて結果を公開する上で役立ちました。

適切な Amazon EC2 インスタンスを選択することは、研究を推進する方法の 1 つにすぎません。オンデマンドまたはキャパシティブロックでインスタンスをレンタルすることで、俊敏性を維持し、いつでも最適なものを選択できます。コンピューティング能力に対するこのアプローチは、コストを削減すること、そして、メモリフットプリントを、勾配降下法で必要だったであろうよりもはるかに小さく抑えることにも貢献しています。秋葉氏は次のようにコメントしています。「AWS は当社のワークロードと、当社が達成しようとしていることを深く理解してくれています。当社がキャパシティの問題などの課題を迅速に克服するのをサポートしてくれました」。

AWS は、Sakana AI の野心とインテリジェンスに刺激を受け、同社を Day One からサポートしてきました。AWS の Solutions Architect である針原佳貴は次のように述べています。「このように優れた才能を持つチームと仕事ができるのは喜ばしいことです。同社の研究ですばらしい成果が出たことをうれしく思います。そして、AWS がリソース、専門知識、創造的思考を提供することで、同社の取り組みを今後もサポートし続けられることを願っています」。

秋葉氏は、AWS とのパートナーシップとサービスによって、同社が順調に事業を開始できたと述べています。「当社は非常に小規模なチームであるため、クラスターをセットアップするプラットフォームエンジニアがいませんでした。AWS サービスは非常に使いやすく、研究をシンプルに進められるようになりました」。

AI の新たなフロンティアの探究

生成 AI の分野では熾烈な競争が繰り広げられ、急速に進化していますが、Sakana AI の研究は進歩をさらに加速させることが期待されています。「現在、プロプライエタリモデルとオープンソースモデルの間で競争が繰り広げられており、プロプライエタリモデルがリードしていると考える人が多いようです。しかし、私は、当社の研究がオープンソースモデルの開発を加速し、コミュニティで新しいスキルを解き放つためのゲームチェンジャーとなることができると信じています」と秋葉氏は述べています。

Sakana AI は、新しい手法がどのようにより迅速なイノベーションサイクルを生み出すことができるかを熱心に研究し続けています。しかし、Jones 氏が指摘するように、同社は目先の成果を目指しているわけではありません。「当社の長期的かつ探索的なアプローチでは、将来がどうなるのかを予測するのがはるかに難しくなります。しかし、魅力的なトピックを突き詰めていくのは非常にエキサイティングなので、私はそのリスクを喜んで負いたいと思っています」。

Sakana AI は複数のプロジェクトで勢いを増しており、他の AWS サービスが概念実証をどのようにサポートできるのかを検討しています。Anthropic の Claude などの基盤モデルの使用をスケールすることを目的とした Amazon Bedrock の利用はその一例です。モデル統合手法以外にも、同社はエージェントベースのインテリジェントシステムを進化させる方法も研究しており、AWS はこの刺激的な領域における同社のビジョンをサポートしています。

Jones 氏は、テクノロジーの現在の進歩率に基づいて大きな期待を抱いています。「モデルのトレーニングに使用されるコンピューティングの量は、6 か月ごとに 2 倍になるという状況が継続しているため、トレーニングアルゴリズムを改善し、それらをエージェントに組み込む方法を最適化し続ければ、人間レベルのインテリジェンスに到達できる可能性があります。その後、問題を解決するために 10,000 の AI エージェントを起動できれば、1 週間で 2 年分に相当する科学研究を行うことができるかもしれません」。この研究は、創薬の自動化からコンピュータサイエンス分野におけるコアオペレーションの改善まで、世界でも極めて困難な問題のいくつかを解決する可能性があります。

AWS のようなパートナーとの連携は、Sakana AI のジャーニーにとって非常に重要であり続けており、これは同社がこれから実現しようとしている長期的な価値のほんの始まりにすぎません。生成 AI の可能性を広げようとしている他のスタートアップに対する同社のアドバイスをご紹介しましょう。Jones 氏は、他の創業者がテクノロジーをさらに深く追求することで自由を活用するのを見たいと考えています。「アイデア実現では野心的になりましょう。ゴールドラッシュに目がくらんだり、最初の企業になるためにアプリケーションの最初のバージョンをリリースしたりしないでください。時間をかけて探究しましょう」。

Kan Kato

Kan Kato は AWS の Startup Business Development Manager であり、ベンチャーキャピタリスト、アクセラレーター、事業開発イニシアティブとの戦略的パートナーシップを通じてスタートアップの成功とイノベーションを促進することに尽力しています。スタートアップのために仕事をすることに加えて、サッカーや、トライアスロンのためのトレーニングも楽しんでいます。

Arata Yanase

梁瀬新は、AWS Japan の Startup Account Manager です。以前はフィンテックのスタートアップで Sales and Business Development としてのキャリアを築いてきた梁瀬は、ユーザー獲得に向けた加盟店の開発やサービスの成長のための施策を主導していました。

Yoshitaka Haribara

針原佳貴は、AWS Japan の Senior Startup ML Solutions Architect です。針原はこの役割において、スタートアップであるお客様が AWS で生成 AI のイノベーションを実現できるようサポートしています。余暇にはドラムを演奏することを楽しんでいます。

このコンテンツはいかがでしたか?