評估 Amazon Bedrock 資源的效能

使用 Amazon Bedrock 評估來評估 Amazon Bedrock 模型和知識庫的效能和有效性，以及 Amazon Bedrock 外部的模型和擷取增強生成 (RAG) 來源。Amazon Bedrock 可以計算效能指標，例如模型的語意穩健性，以及知識庫在擷取資訊和產生回應時的正確性。對於模型評估，您也可以利用人力工作者團隊來評分並提供其評估意見。

自動評估，包括利用大型語言模型 (LLMs) 的評估，會產生計算分數和指標，協助您評估模型和知識庫的有效性。以人為本的評估使用一個由人員組成的團隊，他們提供與特定指標相關的評分和偏好。

概觀：自動模型評估任務

自動模型評估任務可讓您快速評估模型執行任務的能力。您可以提供針對特定使用案例量身打造的自訂提示資料集，也可以使用可用的內建資料集。

概觀：使用人工的模型評估任務

使用人工的模型評估任務可讓您將人類意見帶入模型評估程序中。這些工作者可以是公司的員工，或產業主題專家。

概觀：使用判斷模型的模型評估任務

使用判斷模型的模型評估任務可讓您使用第二個 LLM 快速評估模型的回應。第二個 LLM 會評分回應，並提供每個回應的說明。

使用大型語言模型 (LLMs) 的 RAG 評估概觀

LLM 型評估會計算知識庫的效能指標。指標會顯示 RAG 來源或 Amazon Bedrock 知識庫是否能夠擷取高度相關的資訊，並產生實用且適當的回應。您提供的資料集包含提示或使用者查詢，用於評估知識庫如何擷取資訊並為這些指定的查詢產生回應。資料集還必須包含「基本事實」或預期的查詢擷取文字和回應，以便評估可以檢查您的知識庫是否符合預期。

使用以下主題，進一步了解如何建立您的第一個模型評估任務。

模型評估任務支援使用下列類型的 Amazon Bedrock 模型：

基礎模型
Amazon Bedrock Marketplace 模型
自訂的基礎模型
匯入的基礎模型
提示路由器
您已購買佈建輸送量的模型

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

在應用程式中使用 ApplyGuardrail API

支援的區域和模型