Patronus AI が企業の生成 AI への信頼を高めるのにどのように役立つか

このコンテンツはいかがでしたか?

過去数年にわたって、特に 2022 年に ChatGPT が開始されて以来、生成人工知能 (AI) の変革の可能性は、あらゆる規模の組織や幅広い業界の組織にとって否定できないものになっています。効率性を高め、顧客体験を向上させるために、企業が生成 AI ツールの採用を急ぐなど、次の導入の波はすでに始まっています。2023 McKinsey のレポートによると、生成 AI は世界経済に年間 2.6 兆～ 4.4 兆ドル相当の価値を付加し、AI の経済効果全体を約 15～40％押し上げる可能性があると推定されています。一方、IBM の最新の CEO 調査では、回答者の 50％がすでに生成 AI を自社の製品やサービスに組み込んでいることがわかりました。

しかし、生成 AI が主流になるにつれ、顧客や企業はその信頼性と信頼性についてますます懸念を表明しています。また、特定のインプットが特定のアウトプットにつながる理由が不明で、企業が生成 AI の結果を評価することが難しくなっている場合もあります。機械学習（ML）の専門家である Anand Kannappan と Rebecca Qian によって設立された Patronus AI は、この問題に取り組もうとしています。Patronus は AI 主導の自動評価およびセキュリティプラットフォームにより、エラーのリスクを最小限に抑えながら、顧客が大規模言語モデル (LLM) を自信を持って責任を持って使用できるよう支援しています。このスタートアップの目標は、AI モデルをより信頼でき、より使いやすくすることです。「この 1 年間でそれが大きな問題になりました。どの企業も言語モデルを使いたいと思っていますが、特に非常に特殊なユースケースでは、リスクやその仕組みの信頼性だけを懸念しています」と Anand 氏は説明します。「私たちの使命は、生成 AI に対する企業の信頼を高めることです。」

生成 AI のメリットを享受し、リスクを管理する

生成 AI は、機械学習を使用してトレーニングされたデータと同様の新しいデータを生成するAIの一種です。生成 AI は、入力データセットのパターンと構造を学習することで、画像、テキスト、さらにはコード行といったオリジナルのコンテンツを生成します。生成 AI アプリケーションは、膨大な量のデータで事前に訓練された ML モデル、特に、さまざまな自然言語タスクにわたる何兆もの単語で訓練された LLM によって駆動されます。

潜在的なビジネス上のメリットは計り知れません。企業は、LLM を使用して、検索を通じて自社の内部データを活用し、メモやプレゼンテーションを作成し、自動チャット支援を改善し、ソフトウェア開発でコードを自動生成することに関心を示しています。Anand 氏はまた、まだ実現されていないさまざまなユースケースについても指摘しています。「生成 AI がまだ混乱させていない業界はたくさんあります。私たちは、これまで見てきたすべてのことのほんの初期段階にしかすぎません。」

組織が生成 AI の使用拡大を検討するにつれて、信頼性の問題はますます差し迫ったものになります。ユーザーは、安全でない結果や違法な結果を回避しながら、アウトプットが会社の規制やポリシーに準拠していることを確認したいと考えています。Anand 氏は「大企業やエンタープライズ、特に規制産業では、生成 AI を使いたいミッションクリティカルなシナリオがたくさんあります。しかし、もしミスが起きれば、自社の評判が危険にさらされ、さらには自社の顧客までもが危険にさらされることを懸念しています。」と説明します。

Patronus は、対象となるモデルのパフォーマンスを測定、分析、実験する能力を向上させることで、顧客がこれらのリスクを管理し、生成 AI への信頼を高めるのを支援します。「システムの開発方法がどうであれ、あらゆるもののテストと評価が全体的に非常に堅牢で標準化されていることを確認することが本当に重要です。」と Anand 氏は言います。「そして、それが今まさに欠けているものです。誰もが言語モデルを使いたがっていますが、より科学的な方法で適切にテストする方法について、本当に確立された、あるいは標準化された枠組みがありません。」

信頼性とパフォーマンスの向上

自動化された Patronus プラットフォームは、顧客が実世界のシナリオで異なる LLM のパフォーマンスを評価・比較することを可能にし、それによって望ましくない出力のリスクを低減します。Patronus は、顧客が敵対的なテストスイートを自動的に生成し、Patronus 独自の基準分類に基づいて言語モデルのパフォーマンスをスコア化し、ベンチマークするのを支援するために、新しい ML 技術を使用しています。たとえば、FinanceBench データセットは、財務問題に関する LLM のパフォーマンスを測定する業界初のベンチマークです。

「Patronus で行っていることはすべて、企業がよりスケーラブルで自動化された方法で言語モデルの間違いを発見できるように支援することに重点を置いています」と Anand 氏は言います。現在、多くの大企業が、テストケースを手作業で作成し、スプレッドシートで LLM アウトプットを採点する社内品質保証チームや外部コンサルタントに多額の費用を費やしていますが、Patronus の AI 主導のアプローチにより、このような時間と費用のかかるプロセスの必要がなくなります。

「自然言語処理 (NLP) はかなり経験的なものなので、最終的にどの評価技法が最も効果的かを解明するために、私たちが行っている実験作業がたくさんあります」と Anand 氏は説明します。「私たちが最も効果があるとわかった手法から得られる価値を、非常に簡単かつ迅速に人々が活用できるように、このような機能を製品で実現するにはどうすればよいでしょうか？そして、自社のシステムだけでなく、Patronus のおかげで今できるようになった、そのシステムに対する評価についても、どうすればパフォーマンスが向上できるのでしょうか？」

その結果、好循環が生まれます。企業が製品を使用し、親指や親指を下げる機能を使ってフィードバックをすればするほど、その評価はより良いものになり、その結果、企業独自のシステムもより良いものになります。

結果とわかりやすさの向上による自信の向上

生成 AI の可能性を引き出すには、その信頼性と信頼性を向上させることが不可欠です。様々な業界やユースケースにおいて、潜在的な採用者は、AI アプリケーションによってミスが起こることがあるという事実だけでなく、問題がどのように、またはなぜ起こったのか、そして将来的にそのようなことが起こらないようにするにはどうすればよいのかを理解することの難しさによって、定期的に足踏みしています。

「誰もが本当に求めているのは、何かを本番環境に展開するときに、もっと自信を持てるより良い方法です」と Anand 氏は言います。「あなた自身の従業員、さらには最終顧客の前にそれを置くとき、それは何百人、何千人、あるいは何万人という人々になるわけですから、そのような種類の課題ができるだけ限定されるようにしたいものです。そして、実際に発生する問題については、いつ発生するのか、またその理由を知りたいものです。」

Patronus の主な目標の 1 つは、生成 AI モデルの理解しやすさ、つまり説明可能性を高めることです。これは、LLM からの特定のアウトプットがそのようになっている理由と、顧客がアウトプットの信頼性をより細かく制御する方法を特定する能力を指します。

Patronus は、主に特定のテストケースの合否の理由を顧客に直接伝えることで、説明しやすくすることを目的とした機能を組み込んでいます。Anand 氏によれば：「私たちは自然言語による説明を行っていますが、顧客からはそれが気に入っていると言っていただいています。何が失敗した理由は何であったかもしれないのか、手っ取り早く洞察することができるからです。また、プロンプトやジェネレーションのパラメータ値、あるいは微調整をどのように繰り返せばいいのか、改善の提案もあるかもしれません。説明のしやすさは、実際の評価そのものに重点を置いています。」

AWS を活用した生成 AI の未来に向けて

クラウドベースのアプリケーションを構築するために、Patronus は当初から AWS と連携してきました。Patronus は様々なクラウドベースのサービス（キューインフラには Amazon Simple Queue Service (Amazon SQS)、Kubernetes 環境には Amazon Elastic Compute Cloud (Amazon EC2)）を利用しています。Amazon Elastic Kubernetes Service (Amazon EKS) のカスタマイズ性と柔軟性を活用しています。

Patronus の設立を支援する前に AWS で長年働いてきた Anand 氏と彼のチームは、AWS に関する知識と経験を活かして、製品やインフラストラクチャを迅速に開発することができました。Patronus はまた、AWS のスタートアップに特化したソリューションチームと緊密に連携しており、人脈や会話のセットアップに「尽力」してくれています。「[AWS の] 顧客中心の側面は常に素晴らしいですが、私たちはそれを当たり前のこととは考えていません」と Anand 氏は言います。

Patronus は現在、Lightspeed Venture Par tners が主導する300万ドルのシード資金によるステルスモードからの立ち上げを受けて、関心と需要が殺到しており、楽観的に将来を見据えています。チームはまた、金融業界ドメインの 15 人の専門家と共同で設計した、金融問題における LLM のパフォーマンスに関する初のベンチマークを発表しました。

「将来何ができるのか、本当にワクワクしています」と Anand 氏は言います。「私たちは今後もAIの評価とテストに注力していきます。そのため、企業が言語モデルのギャップを特定し、パフォーマンスを定量化する方法を理解し、最終的には将来的に多くの信頼を築くことができる、より良い製品を手に入れることができるよう支援することができます。」

自信と高い信頼性をもって生成 AI の恩恵を享受する準備はできていますか? ガイダンスプランニング、実行サポート、生成 AI のユースケース、または選択した他のソリューションについては、AWS 生成 AI イノベーションセンターにアクセスしてください。

Aditya Shahani

Aditya Shahani is a Startup Solutions Architect focused on accelerating early stage startups throughout their journey building on AWS. He is passionate about leveraging the latest technologies to streamline business problems at scale while reducing overhead and cost.

Bonnie McClure

Bonnie McClure 氏は、すべての視聴者とプラットフォーム向けにアクセスしやすく、魅力的なコンテンツの作成を専門とする編集者です。シームレスなユーザーエクスペリエンスを提供するための包括的な編集ガイダンスを提供することに専念しています。編集作業に没頭しているとき以外は、2 匹の大型犬と一緒に時間を過ごしたり、裁縫スキルを磨いたり、キッチンで新しいレシピを試したりしています。

このコンテンツはいかがでしたか?