Amazon Bedrock 評估

評估基礎模型 (包括自訂和匯入的模型) 以尋找符合需求的模型。您也可以在 Amazon Bedrock 知識庫中評估您的擷取或端對端 RAG 工作流程。

概觀

Amazon Bedrock 會為您提供評估工具，以加快生成式 AI 應用程式的採用。使用模型評估來評估、比較並選擇適用於您的使用案例的基礎模型。透過評估檢索或檢索和產生函數，準備在 Amazon Bedrock 知識庫上建置的 RAG 應用程式，以供生產之用。

評估類型

模型：LLM 即評判

使用 LLM 即評判，以使用自訂提示資料集來評估模型輸出，其中包含正確性、完整性和危害性等指標。

模型：程式設計式

使用傳統的自然語言演算法和指標 (例如 BERT Score、F1 和其他精確比對技術)、內建提示資料集或自攜資料集來評估模型輸出。

模型：人工

透過您自己的員工評估模型輸出，或讓 AWS 管理評估，這些評估使用內建或自訂指標對自訂提示資料集進行回應。

知識庫：RAG 檢索

使用自訂提示和指標 (例如情境關聯性和情境涵蓋範圍)，評估 Amazon Bedrock 知識庫的擷取品質。

知識庫：RAG 檢索和生成

根據您的自訂提示和指標 (例如忠誠度、正確性和完整性)，使用 Amazon Bedrock 知識庫來評估端對端 RAG 工作流程生產的內容。

在 Amazon Bedrock 知識庫中評估您的端對端 RAG 工作流程

使用檢索和產生評估來評估應用程式的端對端檢索增強生成 (RAG) 功能。確保產生的內容正確、完整、限制幻覺，並遵守負責任 AI 原則。只需使用 Amazon Bedrock 知識庫選擇內容產生模型和 LLM 作為評判，上傳自訂提示資料集，然後選取評估最重要的指標即可。

確保從 Amazon Bedrock 知識庫進行完整和相關的檢索

使用 Amazon Bedrock 知識庫評估中的檢索評估來評估 Amazon Bedrock 知識庫的儲存與檢索設定。確保檢索的內容相關，並涵蓋整個使用者查詢。只需選擇知識庫和 LLM 作為評判，上傳自訂提示資料集，然後選取評估最重要的指標即可。

評估 FM 以選擇最適合您的使用場景的模型

Amazon Bedrock 模型評估可讓您使用自動和人工評估，為特定使用案例選擇 FM。自動 (程式設計式) 模型評估使用精選和自訂資料集，提供預先定義的指標，包括準確性、穩定性和毒性。對於主觀指標，您可以使用 Amazon Bedrock，只需完成幾個簡單步驟即可設定人為評估工作流程。透過人工評估，您可以使用自己的資料集，定義自訂指標，例如相關性、風格和品牌聲音的一致性。人工評估工作流程可以使用您的員工作為審核者，或者您可以邀請 AWS 管理的團隊執行人工評估，AWS 會聘請熟練的評估人員並代表您管理整個工作流程。您還可以使用 LLM 即評判，針對資料集提供高品質評估，其中包括正確性、完整性和忠實度 (幻覺) 等指標及拒絕回答和危害性等負責任 AI 指標。