本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
注意
使用判斷模型和 Amazon Bedrock 知識庫評估任務的模型評估任務處於預覽狀態。
使用 Amazon Bedrock 評估來評估 Amazon Bedrock 模型和知識庫的效能和有效性。Amazon Bedrock 可以計算效能指標,例如模型的語意穩健性,以及擷取資訊和產生回應時知識庫的正確性。對於模型評估,您也可以利用人工工作者團隊來評分並提供評估意見。
自動評估,包括利用大型語言模型 (LLMs) 的評估,會產生計算分數和指標,協助您評估模型和知識庫的有效性。以人為本的評估會使用一個團隊,提供與特定指標相關的評分和偏好設定。
概觀:自動模型評估任務
自動模型評估任務可讓您快速評估模型執行任務的能力。您可以提供針對特定使用案例量身打造的自訂提示資料集,也可以使用可用的內建資料集。
概觀:使用人工的模型評估任務
使用人工的模型評估任務可讓您將人類意見帶入模型評估程序中。這些工作者可以是公司的員工,或產業主題專家。
概觀:使用判斷模型的模型評估任務
使用判斷模型的模型評估任務可讓您使用第二個 快速評估模型的回應LLM。第二個 會LLM評分回應,並提供每個回應的說明。
使用大型語言模型的知識庫評估概觀 (LLMs)
LLM型評估知識庫的運算效能指標。指標會顯示知識庫是否能夠擷取高度相關的資訊,並產生有用且適當的回應。您提供的資料集包含提示或使用者查詢,用於評估知識庫如何擷取資訊並產生對這些特定查詢的回應。資料集還必須包含「地面真相」或預期的查詢擷取文字和回應,以便評估可以檢查您的知識庫是否符合預期。
使用以下主題,進一步了解如何建立第一個模型評估任務。
若要建立模型評估任務,您必須擁有至少一個 Amazon Bedrock 模型的存取權。模型評估任務支援使用下列類型的模型:
-
基礎模型
Amazon Bedrock Marketplace 模型
-
自訂的基礎模型
-
匯入的基礎模型
-
提示路由器
-
您已購買佈建輸送量的模型