用於微調的基礎模型和超參數

基礎模型耗費大量計算，並且在一個大型的無標籤語料庫上進行過訓練。微調預先訓練過的基礎模型是一種經濟實惠的方式，可以利用其廣泛的功能，又能在您自己的小型語料庫上自訂模型。微調是一種涉及進一步訓練的自訂方法，並且會改變模型的權重。

有以下需求時，微調可能對您有用：

根據特定業務需求自訂您的模型
您的模型可以成功使用網域特定的語言，例如行業術語、技術術語或其他專業詞彙
針對特定任務增強效能
應用程式中的準確、相對和上下文感知回應
更以事實為基礎，毒性更低，更符合特定要求的反應

根據您的使用案例和選擇的基礎模型，您可以採取兩種主要方法進行微調。

如果您有興趣在特定網域資料上微調模型，請參閱使用網域調整來微調大型語言模型 (LLM)。
如果您對使用提示詞和回應範例的指令式微調感興趣，請參閱使用提示指示微調大型語言模型 (LLM)。

基礎模型可用於微調

您可以微調下列任何 JumpStart 基礎模型：

Bloom 3B
Bloom 7B1
BloomZ 3B FP16
BloomZ 7B1 FP16
Code Llama 13B
Code Llama 13B Python
Code Llama 34B
Code Llama 34B Python
Code Llama 70B
Code Llama 70B Python
Code Llama 7B
程式碼 Llama 7B Python
CyberAgentLM2-7B-Chat (CALM2-7B-Chat)
Falcon 40B BF16
Falcon 40B 指示 BF16
Falcon 7B BF16
Falcon 7B 指示 BF16
Flan-T5 基礎
Flan-T5 大型
Flan-T5 小型
Flan-T5 XL
Flan-T5 XXL
Gemma 2B
Gemma 2B 指示
Gemma 7B
Gemma 7B 指示
GPT-2 XL
GPT-J 6B
GPT-Neo 1.3B
GPT-Neo 125M
GPT-NEO 2.7B
LightGPT 指示 6B
Llama 2 13B
Llama 2 13B 聊天
Llama 2 13B Neuron
Llama 2 70B
Llama 2 70B 聊天
Llama 2 7B
Llama 2 7B 聊天
Llama 2 7B Neuron
混合 7B
混合 8x7B
混合 8x7B 指示
RedPajama INCITE Base 3B V1
RedPajama INCITE Base 7B V1
RedPajama INCITE 聊天 3B V1
RedPajama INCITE 聊天 7B V1
RedPajama INCITE 指示 3B V1
RedPajama INCITE 指示 7B V1
穩定擴散 2.1

通常支援的微調超參數

微調時，不同的基礎模型支援不同的超參數。以下是通常支援的超參數，可在訓練期間進一步自訂您的模型：

推論參數	描述
`epoch`	模型在訓練期間經過微調資料集的通過次數。必須是大於 1 的整數。
`learning_rate`	完成每批次微調訓練範例後，模型權重的更新速率。必須是大於 0 的正浮點數。
`instruction_tuned`	是否指示訓練模型。必須是 `'True'` 或 `'False'`。
`per_device_train_batch_size`	用於訓練的每個 GPU 核心或 CPU 的批次大小。必須是正整數。
`per_device_eval_batch_size`	用於評估的每個 GPU 核心或 CPU 的批次大小。必須是正整數。
`max_train_samples`	為了偵錯目的或更快速的訓練，請將訓練範例的數量截斷為此值。值 -1 表示模型使用所有訓練範例。必須是正整數或 -1。
`max_val_samples`	為了偵錯目的或更快速的訓練，請將驗證範例的數量截斷為此值。值 -1 表示模型使用所有驗證範例。必須是正整數或 -1。
`max_input_length`	字符化後的總輸入序列長度上限。超過此長度的序列將被截斷。如果 -1，`max_input_length`則設定為最小值 1024，且權杖化器`model_max_length`定義的。如果設定為正值， `max_input_length` 會設定為所提供值的最小值，以及權杖化器`model_max_length`定義的。必須是正整數或 -1。
`validation_split_ratio`	如果沒有驗證通道，則訓練驗證從訓練資料分割的比率。必須介於 0 和 1 之間。
`train_data_split_seed`	如果驗證資料不存在，這會修正輸入訓練資料的隨機分割為模型所使用的訓練和驗證資料。必須是整數。
`preprocessing_num_workers`	用於預先處理的程序數量。如果為 `None`，主要程序會用於預先處理。
`lora_r`	低階適應 (LoRA) r 值，作為權重更新的擴展因素。必須是正整數。
`lora_alpha`	低階適應 (LoRA) Alpha 值，做為權重更新的擴展因素。通常為大小的 2 到 4 倍`lora_r`。必須是正整數。
`lora_dropout`	低階適應 (LoRA) 層的捨棄值必須是介於 0 和 1 之間的正浮點數。
`int8_quantization`	如果為 `True`，模型會以 8 位元精確度載入以進行訓練。
`enable_fsdp`	如果為 `True`，訓練會使用完整碎片資料平行處理。

您可以在 Studio 中微調模型時指定超參數值。如需詳細資訊，請參閱在 Studio 中微調模型。

您也可以在使用 SageMaker Python SDK 微調模型時覆寫預設超參數值。如需詳細資訊，請參閱使用 JumpStartEstimator類別微調公開可用的基礎模型。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

提示詞工程

使用網域調整來微調模型