網域適應性微調 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

網域適應性微調

網域適應性微調可讓您利用預先訓練的基礎模型,並使用有限的網域特定資料為特定任務進行調整。如果提示詞工程無法提供足夠的自訂功能,您可以使用網域調整微調,讓您的模型使用領域特定語言,例如產業術語、技術用語或其他專業資料。此微調程序會改變模型的權重。

網域適應性微調適用於下列基礎模型:

注意

某些 JumpStart 基礎模型 (例如 Lama 2 7B) 需要在微調和執行推論之前接受使用者授權合約。如需詳細資訊,請參閱 終端使用者授權協議

  • 綻放 3B

  • 綻放

  • 布卢姆兹

  • 布卢姆兹

  • 吉普特 -2 加大

  • GPT-J 6B

  • GPT-新 1.3B

  • GPT-新 125 米

  • GPT-新 2.7

  • 美洲駝

  • 美洲駝 2 13 B 聊天

  • 美洲駝神經元

  • 美洲駝

  • 美洲駝 2 70B 聊天

  • 美洲駝

  • 美洲駝 2 7B 聊天

  • 美洲駝神經元

準備和上傳訓練數據以進行域適應微調

網域適應微調的訓練資料可以以 CSV、JSON 或 TXT 檔案格式提供。所有訓練資料必須位於單一資料夾內的單一檔案中。

訓練資料取自 CSV 或 JSON 訓練資料檔案的「文字」欄。如果沒有任何欄標示為「文字」,則會從 CSV 或 JSON 訓練資料檔案的第一欄擷取訓練資料。

以下是用於微調的 TXT 文件的示例主體:

This report includes estimates, projections, statements relating to our business plans, objectives, and expected operating results that are “forward- looking statements” within the meaning of the Private Securities Litigation Reform Act of 1995, Section 27A of the Securities Act of 1933, and Section 21E of ....

拆分數據以進行培訓和測試

您可以選擇提供包含驗證資料的其他資料夾。此資料夾也應包含一個 CSV、JSON 或 TXT 檔案。如果未提供驗證資料集,則會為驗證目的預留一定數量的訓練資料。當您選擇超參數來微調模型時,您可以調整用於驗證的訓練資料百分比。

將微調資料上傳到 Amazon S3

將準備好的資料上傳到 Amazon Simple Storage Service (Amazon S3),以便在微調 JumpStart 基礎模型時使用。您可以使用下列指令來上傳資料:

from sagemaker.s3 import S3Uploader import sagemaker import random output_bucket = sagemaker.Session().default_bucket() local_data_file = "train.txt" train_data_location = f"s3://{output_bucket}/training_folder" S3Uploader.upload(local_data_file, train_data_location) S3Uploader.upload("template.json", train_data_location) print(f"Training data: {train_data_location}")

建立訓練工作以進行指令式微調

將資料上傳到 Amazon S3 之後,您可以微調和部署 JumpStart基礎模型。若要在 Studio 中微調模型,請參閱在 Studio 中微調基礎模型。若要使用 SageMaker Python SDK 微調模型,請參閱使用班級微調公開可用的JumpStartEstimator基礎模型

範例筆記本

如需有關網域適應微調的詳細資訊,請參閱下列範例筆記本: