Amazon Nova 抽樣

此快速入門指南可協助您在 SageMaker AI 上使用監督式微調 (SFT) 來開始使用 Amazon Nova 模型分割。

主題

概念
先決條件
資料擴增設定
啟動 SageMaker 訓練任務
驗證擴增資料品質

概念

模型分割是一種將知識從大型、進階模型傳輸到較小、有效模型的方法。使用 Amazon Nova 模型時，較大的「教師」模型（例如 Amazon Nova Pro 或 Amazon Nova Premier) 會將其功能傳遞給較小的「學生」模型（例如 Amazon Nova Lite 或 Amazon Nova Micro)。這會建立自訂模型，以維持高效能，同時使用較少的資源。

關鍵元件

抽樣程序主要涉及兩種類型的模型：

教師模型做為知識來源，並包含：

Amazon Nova Pro (amazon.nova-pro-v1：0)
Amazon Nova Premier (amazon.nova-premier-v1：0)

學生模型會接收並實作知識：

Amazon Nova Lite (amazon.nova-lite-v1：0：300k)
Amazon Nova Micro (amazon.nova-micro-v1：0：128k)
Amazon Nova Pro (amazon.nova-pro-v1：0：300k) - 僅在以教師身分使用 Amazon Nova Premier 時可用

使用案例

在下列情況下，模式分割特別有用：

您的應用程式具有嚴格的延遲、成本和準確性要求。
您需要特定任務的自訂模型，但缺少足夠的高品質標記訓練資料。
您想要符合進階模型的效能，同時維持較小模型的效率。

先決條件

AWS 帳戶可存取 Amazon Nova 模型和適當的服務配額（最低 6 個 P5 和 1 個 R5 執行個體）。
具有 SageMaker 訓練任務許可的 IAM 角色。
Amazon S3 儲存貯體，用於存放訓練資料和輸出。

資料擴增設定

資料擴增階段使用 SageMaker 訓練任務，使用教師模型產生高品質的訓練資料。本節詳細說明設定程序和需求。

IAM 角色

若要建立 IAM 角色和連接政策，請參閱建立角色和連接政策（主控台）。如果您使用 AWS CLI，請遵循 create-role 和 attach-role-policy 中的指示。如需詳細資訊，請參閱 SageMaker AI 開發人員指南中的如何使用 SageMaker AI 執行角色。 SageMaker

以下是供您參考的範例命令。

建立 SageMaker AI 執行角色

建立角色時具有信任關係，允許 SageMaker AI、Amazon Bedrock 擔任此角色。這可讓這些服務在執行批次推論任務時代表您執行。


aws iam create-role \
 --role-name NovaCustomizationRole \
 --assume-role-policy-document '{
 "Version": "2012-10-17",
 "Statement": [
 {
 "Effect": "Allow",
 "Principal": {
 "Service": ["sagemaker.amazonaws.com",
            "bedrock.amazonaws.com"]
 },
 "Action": "sts:AssumeRole"
 }
 ]
}'

連接必要的政策


# Attach AmazonSageMakerFullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonSageMakerFullAccess

# Attach AmazonBedrockFullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonBedrockFullAccess

 # Attach S3 access policy
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonS3FullAccess
 
# Attach AmazonEC2FullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonEC2FullAccess
 
# Attach AmazonEC2ContainerRegistryFullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess
 
# Attach AmazonEC2ContainerRegistryFullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/CloudWatchLogsFullAccess

將下列內嵌政策連接至 Distillation Container 所需的客戶執行角色。

AWS KMS 許可：允許角色與 AWS Key Management Service 互動，這是存取加密資源或管理加密金鑰的必要條件。
IAM:PassRole：當一個服務需要將此角色傳遞給另一個服務時，通常需要此許可，這是 AWS 服務整合中的常見模式。


aws iam put-role-policy \
 --role-name NovaCustomizationRole \
 --policy-name Distillation-Additional-Permissions\
 --policy-document '{
 "Version": "2012-10-17",
 "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "kms:*"
            ],
            "Resource": "*"
        },
        {
            "Effect": "Allow",
            "Action": [
                "iam:PassRole"
            ],
            "Resource": "*"
        }
    ]
}

Amazon VPC 組態

若要使用為 SageMaker AI 訓練任務建立 Amazon VPC 組態 AWS Management Console，請遵循設定 SageMaker 訓練的私有 VPC （主控台）中的指示。

建立新的 Amazon VPC


Name: Distillation-VPC
IPv4 CIDR: 10.0.0.0/16 (or your preferred range)
Availability Zones: 2
Public Subnets: 2
Private Subnets: 2
NAT Gateways: 1 (in one AZ)

建立安全群組


Name: Distillation-SG
Description: Security group for data distillation jobs
Inbound Rules: Allow all traffic from self
Outbound Rules: Allow all traffic (0.0.0.0/0)

為下列服務建立 VPC 端點


com.amazonaws.[region].s3
com.amazonaws.[region].sagemaker.api
com.amazonaws.[region].sagemaker.runtime
com.amazonaws.[region].bedrock.api
com.amazonaws.[region].bedrock.runtime
com.amazonaws.[region].sts
com.amazonaws.[region].logs
com.amazonaws.[region].ecr.api
com.amazonaws.[region].ecr.dkr

對於每個端點：

選取您的 Distillation-VPC
選擇私有子網路
選取 Distillation-SG 安全群組

AWS KMS 金鑰

使用 Amazon Bedrock 批次推論時，資料安全和合規需要 AWS KMS 金鑰。Amazon Bedrock 批次推論任務需要使用 AWS KMS 金鑰加密 Amazon S3 儲存貯體的輸入和輸出，以確保靜態資料保護。

使用此命令 AWS CLI 搭配建立 KMS 金鑰：


# Create KMS key
aws kms create-key \
--description "KMS key for Amazon Bedrock batch inference Amazon S3 bucket" \
--region us-east-1

命令會輸出金鑰資訊，包括 ARN。輸出範例：


{
    "KeyMetadata": {
        "KeyId": "1234abcd-12ab-34cd-56ef-1234567890ab",
        "Arn": "arn:aws:kms:us-east-1:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"
    }
}

注意

從輸出儲存 KMS 金鑰 ARN，因為在下一節中建立 Amazon S3 儲存貯體時需要它。

Amazon S3 儲存貯體

您需要兩種類型的 Amazon S3 儲存。客戶管理的 Amazon S3 儲存貯體會存放您的輸入資料和輸出manifest.json檔案。您可以建立和管理此儲存貯體，並且可以針對輸入和輸出使用單一儲存貯體。此儲存貯體必須使用 KMS 加密設定，因為它會儲存敏感的輸出資料，並供 Amazon Bedrock 批次推論任務使用 - Amazon Bedrock 需要 KMS 加密的儲存貯體來處理批次推論任務。

服務管理的 Amazon S3 儲存貯體存放模型權重。服務管理的 Amazon S3 儲存貯體會在您的第一個訓練任務期間自動建立。它具有受限制的存取控制，具有只能透過資訊清單檔案存取的特定路徑。

若要在特定中建立儲存貯體 AWS 區域，請使用 create-bucket CLI 命令。

使用 AWS KMS 加密建立 Amazon S3 儲存貯體的範例命令。{kms_key_arn} 將取代為您的 AWS KMS 金鑰 ARN。如果您尚未建立 AWS KMS 金鑰，則需要先建立金鑰。


aws s3api create-bucket \
--bucket {my_bucket_name} \
--region {aws_region} \
--create-bucket-configuration LocationConstraint={aws_region} \
--server-side-encryption-configuration '{
    "Rules": [
        {
            "ApplyServerSideEncryptionByDefault": {
                "SSEAlgorithm": "aws:kms",
                "KMSMasterKeyID": "{kms_key_arn}"
            },
            "BucketKeyEnabled": true
        }
    ]
}'

啟動 SageMaker 訓練任務

開始訓練任務之前，請先準備您的資料。

資料格式需求 - 您的輸入資料集必須是 JSONL 格式，其中每一行都包含反向格式的範例，詳細資訊請參閱準備資料以分割理解模型。

資料集限制條件

提示下限：100
檔案大小上限：2GB
最長行長度：180KB
檔案格式：僅限 JSONL

若要上傳輸入資料，請執行下列命令。


aws s3 cp /path/to/input-data/ s3://customer-input-data-bucket/ —recursive

資料擴增配方

您可以從 SageMaker HyperPod 配方儲存庫取得分割配方。分割配方位於目錄下：recipes-collection/recipes/fine-tuning/nova。資料擴增程序是由 YAML 組態檔案控制。以下是每個參數的詳細說明。全部都是必要欄位。

參數	描述
name	訓練任務的描述性名稱。這有助於在中識別您的任務 AWS Management Console。
distillation_data	啟用資料分割任務，請勿修改此欄位。
maxNumberOfPrompts	資料集中的提示數目上限。
maxResponseLength	每個提示的回應長度上限（權杖）。
maxInputFileSizeInGB	輸入檔案的大小上限（以 GB 為單位）。
maxLineLengthInKB	輸入檔案中單一行的大小上限 (KB)。
maxStudentModelFineTuningContextLengthInTokens	學生模型的內容視窗大小上限（權杖）。值不得超過學生模型容量。您可以根據學生模型容量，將此值設定為 32k 或 64k。
teacherModelId	當您設定教師模型 ID 時，請從兩個選取：對於 Amazon Titan Premier："us.amazon.nova-premier-v1：0" 代表 IAD 區域。注意：這僅適用於 IAD 區域。對於 Amazon Nova Pro："us.amazon.nova-pro-v1：0" 表示 IAD 區域，而 "eu.amazon.nova-pro-v1：0" 表示 ARN 區域。
溫度	控制回應隨機性（建議 0.7 用於平衡）。
top_p	字符抽樣的累積機率閾值（建議使用 0.9)。
customer_bucket	用於輸入/輸出資料的 Amazon S3 儲存貯體。
kms_key	AWS KMS 在 S3 中加密輸出的金鑰。Bedrock 批次推論需要此金鑰來存放推論任務傳回的輸出。

限制

對於作為 Nova Premier 的教師模型 - 由於 Amazon Bedrock 批次推論，僅在 IAD 區域 (us-east-1) 中受支援，不適用於 ARN (eu-north-1) 區域。

最佳實務

資料準備

包含 100 個高品質標籤範例來引導教師模型
在提交之前移除品質不佳的標籤
遵循文字理解提示最佳實務
開始分割之前，使用教師模型測試提示

模型選取

使用 Nova Pro 做為一般使用案例的老師
考慮讓 Nova Premier 具備專業領域知識
根據延遲和成本需求選擇學生模型

效能最佳化

從建議的溫度 (0.7) 和 top_p (0.9) 開始
在微調之前驗證擴增的資料品質
遵循選取超參數中的準則來調整超參數

使用 PySDK 啟動任務

下列範例筆記本示範如何執行 SageMaker 訓練任務以進行抽樣。如需詳細資訊，請參閱使用 SageMaker AI 估算器來執行訓練任務。


import os
import sagemaker,boto3
from sagemaker.pytorch import PyTorch
from sagemaker.inputs import TrainingInput

sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()

# SETUP
job_name = <Your_job_name> # Must be unique for every run

input_s3_uri = <S3 URI to your input dataset> # Must end in .jsonl file
output_s3_uri = <S3 URI to your output bucket> + job_name

image_uri = "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-distillation-repo:SM-TJ-DISTILL-LATEST" # Do not change
instance_type = "ml.r5.4xlarge" # Recommedation is to use cpu instances 
instance_count = 1 # Must be 1, do not change 
role_arn = <IAM role to execute the job with>
recipe_path = <Local path to your recipe>

# Execution

estimator = PyTorch(
    output_path=output_s3_uri,
    base_job_name=job_name,
    role=role_arn,
    instance_count=instance_count,
    instance_type=instance_type,
    training_recipe=recipe_path,
    max_run=432000,
    sagemaker_session=sagemaker_session,
    image_uri=image_uri,
    subnets= ['subnet-xxxxxxxxxxxxxxxxx','subnet-xxxxxxxxxxxxxxxxx'], # Add subnet groups created in previous steps
    security_group_ids= ['sg-xxxxxxxxxxxxxxxxx'], # Add security group created in previous steps
    disable_profiler=True,
    debugger_hook_config=False
)

trainingInput = TrainingInput(
    s3_data=input_s3_uri,
    distribution='FullyReplicated',
    s3_data_type='Converse'
)

# The keys must be "train".
estimator.fit(inputs={"train": trainingInput})

驗證擴增資料品質

在繼續進行微調之前，請務必驗證擴增資料的品質：

檢閱輸出儲存貯體中的 sample_training_data.jsonl 檔案。此檔案包含擴增資料集的 50 個隨機範例。
手動檢查這些範例與您的使用案例的相關性、一致性和一致性。
如果品質不符合您的期望，您可能需要調整輸入資料或抽樣參數，並重新執行資料擴增程序。

資料增強完成後，第二個階段涉及使用 Amazon SageMaker HyperPod 微調學生模型。如需詳細資訊，請參閱全階監督微調 (SFT)。

在 SFT 訓練配方中，您可以傳遞先前任務傳回的資料集路徑。


data_s3_path: "s3://[escrow-bucket]/[job-name]/distillation_data/training_data.jsonl"

同時覆寫從上一個步驟產生的建議訓練組態。

限制

僅支援此擴增資料上的 SFT Nova 微調技術。
僅支援 Amazon SageMaker HyperPod 上的 SFT Nova 微調技術。
不支援多模態分割。
不支援自訂教師模型。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

SageMaker 訓練任務

微調