本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker AI 訓練任務
使用 自訂 Amazon Nova 模型Amazon SageMaker Training Jobs遵循結構化工作流程,旨在簡化微調大型語言模型的複雜程序。此end-to-end工作流程包含模型訓練、評估和部署以進行推論。如需詳細資訊,請參閱《Amazon SageMaker AI 開發人員指南》中的自訂 Amazon Nova 模型。 Amazon SageMaker
透過 Amazon SageMaker AI,您可以微調現有的預先訓練基礎模型,例如 Amazon Nova,而無需從頭開始訓練您自己的模型。以下各節詳細說明使用 Amazon Nova 基礎模型時,SageMaker AI 中的微調選項。
完整排名微調
全階微調會修改所有基礎模型參數,以最佳化特定任務或網域的效能。這種全面的方法更新了整個模型架構,實現比轉接器型方法更深入的調整。如需詳細資訊,請參閱微調基礎模型。
完整排名微調的運作方式
在完整排名微調期間,模型會使用訓練資料更新其所有參數來學習。完整排名微調的此程序:
-
允許模型為您的網域開發專業知識。
-
對模型的基礎表示法進行重大變更。
-
與轉接器型方法相比,需要更多的運算資源,但可以實現更好的任務特定效能。
何時選擇完整排名微調
我們建議在下列案例中使用完整排名微調:
-
當 LoRA PEFT 微調未達到所需的效能等級時。
-
對於需要深度專業知識的專業領域 (例如醫療、法律或技術領域)。
-
當您有適用於使用案例的大型高品質資料集時。
-
當準確度需求超過運算成本考量時。
-
對於需要明顯偏離基礎模型行為的應用程式。
低階轉接器微調
增強基礎模型效能最有效且最具成本效益的方法,是透過低階轉接器參數效率微調 (LoRA PEFT)。LoRA PEFT 的基礎原則是,只需要更新少量的額外權重,以適應新的任務或網域。
LoRA PEFT 透過將低階、可訓練的權重矩陣引入特定模型層來有效率地微調基礎模型,從而減少可訓練參數的數量,同時維持模型品質。LoRA PEFT 轉接器透過整合輕量型轉接器層,在推論期間修改模型的權重,同時保持原始模型參數不變,來增強基礎模型。此方法也被視為最具成本效益的微調技術之一。如需詳細資訊,請參閱使用轉接器推論元件微調模型。
選擇 LoRA PEFT 的時機
我們建議在下列情況下使用 LoRA PEFT:
-
您通常應該從 LoRA PEFT 開始,而不是透過其他微調方法,因為它是一種快速的訓練程序。
-
在基礎模型的效能已令人滿意的情況下,LoRA PEFT 會有效。在這種情況下,LoRA PEFT 的目標是增強其跨多個相關任務的功能,例如文字摘要或語言翻譯。LoRA PEFT 的正規化屬性也有助於防止過度擬合,並降低模型「忘記」來源網域的風險。這可確保模型保持多樣化且可適應各種應用程式。
-
您可以使用 LoRA PEFT,以相對較小的資料集進行指令微調案例。LoRA PEFT 使用更小型、任務特定的資料集時效能更佳。
-
對於超過 Amazon Bedrock 自訂資料限制的大型標記資料集,您可以在 SageMaker AI 上使用 LoRA PEFT 來產生更好的結果。
-
如果您已透過 Amazon Bedrock 微調達到有希望的結果,SageMaker AI 上的 LoRA PEFT 有助於進一步最佳化模型超參數。
直接偏好設定最佳化
直接偏好最佳化 (DPO) 是基礎模型的有效微調方法,使用配對比較資料,使模型輸出與人類偏好保持一致。此方法會根據人類對哪些回應更理想的意見回饋,直接最佳化模型行為。
為什麼 DPO 很重要
以大規模資料訓練的基礎模型通常會產生實際上可能正確但無法符合特定使用者需求、組織價值或安全需求的輸出。DPO 可讓您執行下列動作來解決此差距:
-
針對所需的行為模式微調模型。
-
減少不必要的輸出或有害的回應。
-
使模型回應與品牌語音和通訊指導方針保持一致。
-
根據網域專家意見回饋改善回應品質。
DPO 的運作方式
DPO 使用配對範例,其中人工評估人員指出偏好兩種可能回應中的哪一種。此模型會學習將產生偏好回應的可能性最大化,同時將不需要的回應降至最低。您可以使用下列任一技術來實作 DPO:
-
全階 DPO:更新所有模型參數,以最佳化偏好的回應。
-
以 LoRA 為基礎的 DPO:使用輕量型轉接器來學習偏好設定對齊,只需要較少的運算資源。
選擇 DPO 的時機
我們建議在下列情況下使用 DPO:
-
最佳化需要符合特定人類偏好設定的主觀輸出。
-
調整模型的色調、風格或內容特性,以符合所需的回應模式。
-
根據使用者意見回饋和錯誤分析,對現有模型進行有針對性的改善。
-
在不同使用案例中維持一致的輸出品質。
-
透過偏好的回應模式實作安全防護機制。
-
使用無獎勵強化學習進行訓練。
-
僅使用偏好設定資料,而非分級或標籤資料。
-
在細微的對齊任務中改善模型,例如實用性、無害性或誠實性。
DPO 透過精心策劃的偏好設定資料集,示範所需的輸出與不需要的輸出,進而有效地反覆精簡模型行為。此方法在支援全階和 LoRA 型方法方面的彈性,可讓您根據您的運算資源和特定需求選擇最適合的實作。
擾動
模型分割是一種將知識從大型、進階模型傳輸到較小、有效模型的方法。使用 Amazon Nova 模型時,較大的「教師」模型 (例如 Amazon Nova Pro 或 Amazon Nova Premier) 會將其功能傳遞給較小的「學生」模型 (例如 Amazon Nova Lite 或 Amazon Nova Micro)。這會建立自訂模型,以在使用較少資源的同時維持高效能。
如需有關如何使用 SageMaker AI 訓練任務完成此操作的資訊,請參閱 Amazon Nova 抽樣。