使用 SageMaker 澄清來評估大型語言模型

重要

為了使用 SageMaker 澄清基礎模型評估，您必須升級到新的 Studio 體驗。截至 2023 年 11 月 30 日，以前的 Amazon SageMaker 工作室體驗現在被命名為 Amazon SageMaker 工作室經典。基礎評估功能只能用於更新的體驗。若要取得有關如何更新 Studio 的資訊，請參閱從 Amazon SageMaker 工作室經典遷移。如需有關使用 Studio 典型應用程式的資訊，請參閱Amazon 經典 SageMaker 一室。

使用 Amazon SageMaker 澄清，您可以透過建立模型評估任務來評估大型語言模型 (LLM)。模型評估工作可讓您評估並比較來 JumpStart自文字基礎模型的模型品質與責任度量。模型評估工作也支援使用已部署到端點的模型。 JumpStart

您可以使用三種不同的方法來建立模型評估工作。

在 Studio 中建立自動化模型評估工作 — 自動模型評估工作可讓您快速評估模型執行工作的能力。您可以提供針對特定使用案例量身打造的自訂提示資料集，也可以使用可用的內建資料集。
在 Studio 中建立使用人工的模型評估工作 — 使用人工的模型評估工作可讓您將人工意見帶入模型評估程序中。這些工作者可以是公司的員工，或產業主題專家。
使用程式fmeval庫建立自動化模型評估工作 — 使用建立工作可fmeval讓您對模型評估工作進行最精細的顆粒控制。它還支持在其他服務之外 AWS 或非JumpStart 基於模型的使用 LLM。

模型評估工作支持 LLM 的常見用例，例如文本生成，文本分類，問答以及文本摘要。

開放式產生 — 產生不具有預先定義結構之文字的自然人類回應。
文字摘要 — 產生簡潔而簡潔的摘要，同時保留較大文字中包含的意義和關鍵資訊。
問題回答 — 產生對提示的相關且準確的回應。
分類 — 根據文字的內容指派類別，例如標籤或分數。

下列主題說明可用的模型評估任務，以及您可以使用的指標種類。他們還描述了可用的內建資料集，以及如何指定自己的資料集。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

評估、解釋和偵測模型中的偏差

模型評估