建立良好的工作者指示 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立良好的工作者指示

為模型評估任務建立良好的指示,以提高工作者完成任務的準確性。建立模型評估任務時,可修改主控台提供的預設指示。在工作者完成其標籤任務的使用者介面頁面上,工作者會看到這些指示。

若要協助工作者完成指派的任務,您可以在兩個地方提供指示。

為每個評估和評分方法提供良好的描述

該描述應提供所選指標的簡潔說明。該描述應展開指標,並清楚說明您希望工作者如何評估選取的評分方法。若要查看每個評分方法在工作者 UI 中如何顯示的範例,請參閱 可用評分方法摘要

為您的工作提供整體評估指示

這些指示顯示在工作者完成任務的同一個網頁上。您可以使用此空間為模型評估任務提供高層次方向,並描述基本事實回應 (如果已包含在提示資料集中)。

可用評分方法摘要

在以下每個章節中,您可以看到工作團隊在評估 UI 中看到的評分方法範例,以及這些結果如何儲存在 Amazon S3 中。

李克特量表,多個模型輸出的比較

人力評估員根據您的指示,在 5 點李克特量表上指出他們對模型的兩個回應的偏好。最終報告結果將顯示為評估者對整個資料集的偏好強度評分的直方圖。

確保您在指示中定義了 5 點量表要點,如此您的評估者才會知道如何根據您的期望對回應進行評分。

這是我的映像。
JSON 輸出

evaluationResults 下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "comparisonLikertScale" 鍵值組。

選擇按鈕 (選項按鈕)

選擇按鈕允許人力評估者指出他們對另一個回應的偏好回應。評估員會根據您使用選項按鈕的指示,指出對兩個回應之間的偏好。最終報告中的結果會以每個模型的工作者偏好的回應百分比顯示。請務必在指示中清楚說明您的評估方法。

這是我的映像。
JSON 輸出

evaluationResults 下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "comparisonChoice" 鍵值組。

順序排名

順序排名允許人力評估員根據您的指示,將其偏好回應以提示形式從 1 開始依序排名。最終報告中的結果將以評估者在整個資料集中的排名直方圖顯示。請務必在您的指示中定義 1 的排名代表何義。

這是我的映像。
JSON 輸出

evaluationResults 下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "comparisonRank" 鍵值組。

拇指向上/向下

拇指向上/向下允許人力評估者根據您的指示,將模型中的每個回應評分為可接受/不可接受的。最終報告中的結果將以每個模型獲得拇指向上的評估者評分總數的百分比顯示。您可以使用此評分方法來評估一個或多個模型。如果您在包含兩個模型的評估中使用此功能,則會針對每個模型回應向您的工作團隊提供拇指向上/向下表示法,而且最終報告會個別顯示每個模型的彙總結果。請務必在您的指示中定義什麼是可接受的 (即什麼是拇指向上評分)。

這是我的映像。
JSON 輸出

evaluationResults 下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "thumbsUpDown" 鍵值組。

李克特量表,單一模型回應的評估

允許人力評估員根據您在 5 點李克特量表上的指示,指出他們核准模型回應的強度。最終報告中的結果將顯示為評估者對整個資料集的 5 點評分的直方圖。您可以將此用於包含一個或多個模型的評估。如果您在包含多個模型的評估中選取此評分方法,則會針對每個模型回應向您的工作團隊提供 5 點李克特量表,而且最終報告會個別顯示每個模型的彙總結果。請務必在指示中定義 5 點量表要點,如此您的評估者才會知道如何根據您的期望對回應進行評分。

這是我的映像。
JSON 輸出

evaluationResults 下方第一個子鍵是傳回所選評分方法的位置。在儲存到 Amazon S3 儲存貯體的輸出檔案中,每個工作者的結果會儲存到 "evaluationResults": "individualLikertScale" 鍵值組。