準備資料集 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備資料集

在開始模型自訂工作之前,您需要以最少的方式準備訓練資料集。是否支援驗證資料集,以及訓練和驗證資料集的格式取決於下列因素。

  • 自訂工作的類型 (微調或繼續預先訓練)。

  • 數據的輸入和輸出方式。

若要查看不同模型的資料集和檔案需求,請參閱模型自訂配額

選取與您的使用案例相關的標籤。

Fine-tuning: Text-to-text

若要微調 text-to-text 模型,請建立具有多個 JSON 行的 JSONL 檔案,以準備訓練和選用驗證資料集。每個 JSON 行都是包含promptcompletion欄位的範例。每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

以下是問答任務的範例項目:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

若要微調 text-to-image 或 image-to-embedding 模型,請建立具有多個 JSON 行的 JSONL 檔案,以準備訓練資料集。不支援驗證資料集。每個 JSON 行都是一個包含 image-ref 的範例,其中包含影像的 Amazon S3 URI,以及可能是影像提示的 caption

影像必須是 JPEG 或 PNG 格式。

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下是範例項目:

{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

若要允許 Amazon 基岩存取映像檔,請在主控台中為您設定或自動存取訓練和驗證檔案,以及在 S3 中寫入輸出檔案的權限為您設定的 Amazon 基岩模型自訂服務角色新增類似的 IAM 政策。您在訓練資料集中提供的 Amazon S3 路徑必須位於您在政策中指定的資料夾中。

Continued Pre-training: Text-to-text

若要在 text-to-text 模型上執行繼續預先訓練,請透過建立具有多個 JSON 行的 JSONL 檔案來準備訓練和選用的驗證資料集。因為繼續預先訓練涉及未標記的資料,因此每個 JSON 行都是僅包含欄位的範例。input每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

以下是可能位於訓練資料中的範例項目。

{"input": "AWS stands for Amazon Web Services"}