在 Amazon Bedrock 中檢閱自動化模型評估任務的指標（主控台）

您可以使用 Amazon Bedrock 主控台檢閱自動模型評估任務報告中顯示的指標。

在模型評估報告卡中，您會看到您提供或選取的資料集中的提示總數，以及收到回應的提示數量。如果回應數量少於輸入提示數量，請確保在 Amazon S3 儲存貯體中檢查資料輸出檔。提示可能導致模型發生錯誤，並且沒有擷取任何推論。只有來自模型的回應才會用於指標計算。

使用下列程序在 Amazon Bedrock 主控台上檢閱自動模型評估任務。

在所有與語意強健性相關的指標中，Amazon Bedrock 擾動會以下列方式提示：將文字轉換為所有小寫字母、鍵盤錯別字、將數字轉換為單字、隨機變更為大寫，以及隨機新增/刪除空格。

開啟模型評估報告後，您可以檢視摘要的指標，以及任務的任務組態摘要。

對於建立任務時指定的每個指標和提示資料集，您會看到一張卡片，以及為該指標指定的每個資料集的值。計算此值的方式會根據您選取的任務類型和指標而變更。

準確度：對於此指標，該值是使用真實世界知識分數 (RWK 分數) 計算。RWK 分數會檢驗模型對真實世界的事實知識進行編碼的能力。較高的 RWK 分數表示您的模型正確。
強健性：對於此指標，使用語意強健性來計算值。這是使用單字錯誤率計算出來的。語意強健性衡量模型輸出由於輸入中微小的語意保留擾動而發生的變化。這種擾動的強健性是一種理想的屬性，因此低語意強健性分數表示您的模型表現良好。

我們考慮的擾動類型是：將文字轉換為所有小寫字母、鍵盤錯別字、將數字轉換為單字、隨機變更為大寫字母，以及隨機新增/刪除空格。資料集中的每個提示都會擾動約 5 次。然後，每個擾動的回應都會傳送進行推論，並用於自動計算強健性分數。
毒性：對於此指標，該值是使用解毒演算法中的毒性來計算。低毒性值表示您選擇的模型沒有產生大量的有毒內容。若要了解有關解毒演算法的更多資訊並查看毒性的計算方式，請參閱 GitHub 上的解毒演算法。

準確度：針對此指標計算出的值是 BERT 分數。BERT 分數是使用 BERT 模型中預先訓練的上下文內嵌項目計算出來的。該分數是透過餘弦類似性配對候選和參考句子中的單字。
強健性：對於此指標，計算的值為百分比。該指標的計算採用 (Delta BERTScore/BERTScore)x 100。Delta BERTScore 是資料集中擾動的提示與原始提示之間 BERT 分數的差異。資料集中的每個提示都會擾動約 5 次。然後，每個擾動的回應都會傳送進行推論，並用於自動計算強健性分數。分數越低，表示選取的模型越強固。
毒性：對於此指標，該值是使用解毒演算法中的毒性來計算。低毒性值表示您選擇的模型沒有產生大量的有毒內容。若要了解有關解毒演算法的更多資訊並查看毒性的計算方式，請參閱 GitHub 上的解毒演算法。

準確度：針對此指標計算出的值是 F1 分數。F1 分數的計算方式是將精確度分數 (正確預測與所有預測的比率) 除以取回分數 (正確預測與相關預測總數的比率)。F1 分數範圍從 0 到 1，值越高表示效能越好。
強健性：對於此指標，計算的值為百分比。其計算方式是採用 (Delta F1 / F1) X 100。Delta F1 是資料集中擾動提示與原始提示之間的 F1 分數差異。資料集中的每個提示都會擾動約 5 次。然後，每個擾動的回應都會傳送進行推論，並用於自動計算強健性分數。分數越低，表示選取的模型越強固。
毒性：對於此指標，該值是使用解毒演算法中的毒性來計算。低毒性值表示您選擇的模型沒有產生大量的有毒內容。若要了解有關解毒演算法的更多資訊並查看毒性的計算方式，請參閱 GitHub 上的解毒演算法。

準確度：針對此指標計算出的值是準確度。準確度是將預測類別與其基本事實標籤進行比較的評分。較高的準確度表示您的模型正確地根據提供的基本事實標籤對文字進行分類。
強健性：對於此指標，計算的值為百分比。其計算方式為取得（差異分類準確度分數/分類準確度分數） x 100。Delta 分類準確性分數是擾動提示的分類準確性分數與原始輸入提示之間的差異。資料集中的每個提示都會擾動約 5 次。然後，每個擾動的回應都會傳送進行推論，並用於自動計算強健性分數。分數越低，表示選取的模型越強固。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

模型評估的報告和指標

檢閱人工模型評估任務

在 Amazon Bedrock 中檢閱自動化模型評估任務的指標 （主控台）