本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
準備資料集
在開始模型自訂工作之前,您需要以最少的方式準備訓練資料集。是否支援驗證資料集,以及訓練和驗證資料集的格式取決於下列因素。
-
自訂工作的類型 (微調或繼續預先訓練)。
-
數據的輸入和輸出方式。
若要查看不同模型的資料集和檔案需求,請參閱模型自訂配額。
選取與您的使用案例相關的標籤。
- Fine-tuning: Text-to-text
-
若要微調 text-to-text 模型,請建立具有多個 JSON 行的 JSONL 檔案,以準備訓練和選用驗證資料集。每個 JSON 行都是包含
prompt
和completion
欄位的範例。每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}
以下是問答任務的範例項目:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
若要微調 text-to-image 或 image-to-embedding 模型,請建立具有多個 JSON 行的 JSONL 檔案,以準備訓練資料集。不支援驗證資料集。每個 JSON 行都是一個包含
image-ref
的範例,其中包含影像的 Amazon S3 URI,以及可能是影像提示的caption
。影像必須是 JPEG 或 PNG 格式。
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
以下是範例項目:
{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
若要允許 Amazon 基岩存取映像檔,請在主控台中為您設定或自動存取訓練和驗證檔案,以及在 S3 中寫入輸出檔案的權限為您設定的 Amazon 基岩模型自訂服務角色新增類似的 IAM 政策。您在訓練資料集中提供的 Amazon S3 路徑必須位於您在政策中指定的資料夾中。
- Continued Pre-training: Text-to-text
-
若要在 text-to-text 模型上執行繼續預先訓練,請透過建立具有多個 JSON 行的 JSONL 檔案來準備訓練和選用的驗證資料集。因為繼續預先訓練涉及未標記的資料,因此每個 JSON 行都是僅包含欄位的範例。
input
每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}
以下是可能位於訓練資料中的範例項目。
{"input": "AWS stands for Amazon Web Services"}