選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

評估 Amazon Bedrock 資源的效能

焦點模式
評估 Amazon Bedrock 資源的效能 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

注意

使用判斷模型和 Amazon Bedrock 知識庫評估任務的模型評估任務處於預覽狀態。

使用 Amazon Bedrock 評估來評估 Amazon Bedrock 模型和知識庫的效能和有效性。Amazon Bedrock 可以計算效能指標,例如模型的語意穩健性,以及擷取資訊和產生回應時知識庫的正確性。對於模型評估,您也可以利用人工工作者團隊來評分並提供評估意見。

自動評估,包括利用大型語言模型 (LLMs) 的評估,會產生計算分數和指標,協助您評估模型和知識庫的有效性。以人為本的評估會使用一個團隊,提供與特定指標相關的評分和偏好設定。

概觀:自動模型評估任務

自動模型評估任務可讓您快速評估模型執行任務的能力。您可以提供針對特定使用案例量身打造的自訂提示資料集,也可以使用可用的內建資料集。

概觀:使用人工的模型評估任務

使用人工的模型評估任務可讓您將人類意見帶入模型評估程序中。這些工作者可以是公司的員工,或產業主題專家。

概觀:使用判斷模型的模型評估任務

使用判斷模型的模型評估任務可讓您使用第二個 快速評估模型的回應LLM。第二個 會LLM評分回應,並提供每個回應的說明。

使用大型語言模型的知識庫評估概觀 (LLMs)

LLM型評估知識庫的運算效能指標。指標會顯示知識庫是否能夠擷取高度相關的資訊,並產生有用且適當的回應。您提供的資料集包含提示或使用者查詢,用於評估知識庫如何擷取資訊並產生對這些特定查詢的回應。資料集還必須包含「地面真相」或預期的查詢擷取文字和回應,以便評估可以檢查您的知識庫是否符合預期。

使用以下主題,進一步了解如何建立第一個模型評估任務。

若要建立模型評估任務,您必須擁有至少一個 Amazon Bedrock 模型的存取權。模型評估任務支援使用下列類型的模型:

  • 基礎模型

  • Amazon Bedrock Marketplace 模型

  • 自訂的基礎模型

  • 匯入的基礎模型

  • 提示路由器

  • 您已購買佈建輸送量的模型

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。