Amazon Bedrock プロンプトキャッシュ

概要

基盤モデル (FM) の多くのユースケースでは、API コール間でプロンプト (プレフィックス) の特定の部分を再利用します。プロンプトキャッシュを使用すると、サポートされているモデルで、リクエスト間で繰り返されるこれらのプロンプトプレフィックスをキャッシュできます。このキャッシュにより、モデルは一致するプレフィックスの再計算をスキップできます。その結果、Amazon Bedrock のプロンプトキャッシュは、サポートされているモデルのコストを最大 90% 削減するとともに、レイテンシーを最大 85% 低減できます。

複数のユースケースでのパフォーマンスを改善

ドキュメントに関する質疑応答、コードアシスタント、エージェント検索、長文チャットなど、多くのアプリケーションでは長いプロンプトが必要だったり、その恩恵を受けたりしています。極めてインテリジェントな基盤モデルであっても、ユースケースに合った結果を得るには、詳細な手順と多ショットの例を含む広範なプロンプトを使用する必要があることがよくあります。ただし、複数の API コールで再利用される長いプロンプトは、平均レイテンシーの増大につながる可能性があります。プロンプトキャッシュを使用すると、プロンプトプレフィックスが既にキャッシュされている場合は、内部モデルの状態を再計算する必要がありません。これにより処理時間が節約され、応答のレイテンシーを低減できます。

UI のスクリーンショット

繰り返される長いプロンプトに関連するコストを削減

プロンプトキャッシュを使用すると、プロンプトの関連部分をキャッシュして、入力トークンのコストを節約できます。キャッシュはアカウントに固有であり、プロンプトを表す内部モデル状態を構成します。モデルはキャッシュされたプレフィックスの再計算をスキップできるため、より少ないコンピューティングリソースでリクエストを処理できます。その結果、コストを削減できます。

Amazon Bedrock の他の機能とシームレスに統合

プロンプトキャッシュはエージェントなどの Amazon Bedrock の機能と統合するため、複数ステップのタスクを高速化したり、長いシステムプロンプトを利用して、応答の速度を低下させることなく、エージェントの動作を改善したりできます。