本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon 基岩 (主控台) 中檢閱以人為基礎的模型評估任務
您可以使用 Amazon 基岩主控台檢閱報告中呈現的人工評估資料。
在模型評估報告卡中,您會看到您提供或選取的資料集中的提示總數,以及收到回應的提示數量。如果回應數少於輸入提示的次數乘以您在任務中設定的每個提示的工作者數目 (1、2 或 3),請務必檢查 Amazon S3 儲存貯體中的資料輸出檔案。提示可能導致模型發生錯誤,並且沒有擷取任何推論。而且您的一或多名工作者可能已拒絕評估模型輸出回應。只有來自人力工作者的回應才會用於指標計算。
使用下列程序開啟使用 Amazon Bedrock 主控台上人力工作者的模型評估。
-
開啟 Amazon Bedrock 主控台。
-
從導覽窗格中選擇模型評估。
-
接著,在模型評估表中找到您要檢閱的模型評估任務的名稱。接著選擇該名稱。
模型評估報告會提供有關使用報告卡進行人力評估任務期間所收集到的資料的見解。每張報告卡都會顯示指標、說明和評分方法,以及代表針對指定指標收集之資料的資料視覺效果。
在以下每個章節中,您都可以看到工作團隊在評估 UI 中看到的 5 種可能評分方法的範例。這些範例也會顯示用來將結果儲存在 Amazon S3 中的鍵值對。
李克特量表,多個模型輸出的比較
人工評估員根據您的指示,在 5 點 Likert 量表上指出兩個回應之間的偏好。最終報告結果將顯示為評估者對整個資料集的偏好強度評分的直方圖。
確保您在指示中定義了 5 點量表要點,如此您的評估者才會知道如何根據您的期望對回應進行評分。
JSON輸出
evaluationResults
下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "comparisonLikertScale"
鍵值組。
選擇按鈕 (選項按鈕)
選擇按鈕允許人力評估者指出他們對另一個回應的偏好回應。評估員會根據您使用選項按鈕的指示,指出對兩個回應之間的偏好。最終報告中的結果會以每個模型的工作者偏好的回應百分比顯示。請務必在指示中清楚說明您的評估方法。
JSON輸出
evaluationResults
下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "comparisonChoice"
鍵值組。
順序排名
順序排名允許人力評估員根據您的指示,將其偏好回應以提示形式從 1 開始依序排名。最終報告中的結果將以評估者在整個資料集中的排名直方圖顯示。請務必在您的指示中定義 1 的排名代表何義。此資料類型稱為偏好的排名。
JSON輸出
evaluationResults
下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "comparisonRank"
鍵值組。
拇指向上/向下
拇指向上/向下允許人力評估者根據您的指示,將模型中的每個回應評分為可接受/不可接受的。最終報告中的結果將以每個模型獲得拇指向上的評估者評分總數的百分比顯示。您可以將此評分方法用於包含一或多個模型的模型評估任務。如果您在包含兩個模型的評估中使用此功能,則會針對每個模型回應向您的工作團隊提供拇指向上/向下表示法,而且最終報告會個別顯示每個模型的彙總結果。請務必在您的指示中定義什麼是可接受的 (即什麼是拇指向上評分)。
JSON輸出
evaluationResults
下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "thumbsUpDown"
鍵值組。
李克特量表,單一模型回應的評估
允許人力評估員根據您在 5 點李克特量表上的指示,指出他們核准模型回應的強度。最終報告中的結果將顯示為評估者對整個資料集的 5 點評分的直方圖。您可以將此用於包含一個或多個模型的評估。如果您在包含多個模型的評估中選取此評分方法,則會針對每個模型回應向您的工作團隊提供 5 點李克特量表,而且最終報告會個別顯示每個模型的彙總結果。請務必在指示中定義 5 點量表要點,如此您的評估者才會知道如何根據您的期望對回應進行評分。
JSON輸出
evaluationResults
下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "individualLikertScale"
鍵值組。