Amazon SageMaker HyperPod의 Amazon Nova 사용자 지정 HyperPod

Amazon Nova 레시피를 사용하여 Amazon Nova 모델을 사용자 지정하고 Amazon SageMaker HyperPod에서 훈련할 수 있습니다. 레시피는 SageMaker AI가 모델 사용자 지정 작업을 수행하는 방법에 대한 세부 정보를 제공하는 YAML 구성 파일입니다.

Amazon SageMaker HyperPod는 최적화된 GPU 인스턴스와 Amazon FSx for Lustre 스토리지를 갖춘 고성능 컴퓨팅을 제공합니다. TensorBoard와 같은 도구와의 통합을 통한 강력한 모니터링 반복적 개선을 위한 유연한 체크포인트 관리 추론을 위해 Amazon Bedrock에 원활하게 배포 및 효율적인 확장 가능 다중 노드 분산 훈련은 모두 함께 작동하여 조직에 안전하고 성능, 및 유연한 환경을 통해 Nova 모델을 특정 비즈니스 요구 사항에 맞게 조정할 수 있습니다.

Amazon SageMaker HyperPod의 Amazon Nova 사용자 지정은 서비스 관리형 Amazon S3 버킷에 모델 체크포인트를 포함한 모델 아티팩트를 저장합니다. 서비스 관리형 버킷의 아티팩트는 SageMaker 관리형 AWS KMS 키로 암호화됩니다. 서비스 관리형 Amazon S3 버킷은 현재 고객 관리형 KMS 키를 사용한 데이터 암호화를 지원하지 않습니다. 이 체크포인트 저장 위치는 평가 작업 또는 Amazon Bedrock 추론에 활용할 수 있습니다.

컴퓨팅 인스턴스, Amazon S3 스토리지 및 FSx for Lustre에 표준 요금이 적용될 수 있습니다. 요금 세부 정보는 SageMaker HyperPod 요금, Amazon S3 요금 및 FSx for Lustre 요금을 참조하세요.

컴퓨팅 요구 사항

다음 표에는 SageMaker HyperPod 훈련을 위한 계산 요구 사항이 요약되어 있습니다.

훈련 전
모델	시퀀스 길이	노드	Instance	액셀러레이터
Amazon Nova Micro	8,192	8	ml.p5.48xlarge	GPU H100
Amazon Nova Lite	8,192	16	ml.p5.48xlarge	GPU H100
Amazon Nova Pro	8,192	24	ml.p5.48xlarge	GPU H100

직접 선호 최적화(DPO)
모델	시퀀스 길이	노드 수	Instance	액셀러레이터
직접 기본 설정 최적화(전체)	32,768	2, 4 또는 6	ml.p5.48xlarge	GPU H100
직접 기본 설정 최적화(LoRA)	32,768	2, 4 또는 6	ml.p5.48xlarge	GPU H100

미세 조정
모델	시퀀스 길이	노드 수	Instance	액셀러레이터
감독 미세 조정(LoRA)	65,536	2	ml.p5.48xlarge	GPU H100
감독 미세 조정(전체)	65,536	2	ml.p5.48xlarge	GPU H100
감독 미세 조정(LoRA)	32,768	4	ml.p5.48xlarge	GPU H100
감독 미세 조정(전체)	65,536	4	ml.p5.48xlarge	GPU H100
감독 미세 조정(LoRA)	65,536	6	ml.p5.48xlarge	GPU H100
감독 미세 조정(전체)	65,536	6	ml.p5.48xlarge	GPU H100

증류
모델	노드	Instance
훈련 후 모델 추출	1	ml.r5.24xlarge

평가
모델	시퀀스 길이	노드	Instance	액셀러레이터
일반 텍스트 벤치마크 레시피	8,192	1	ml.p5.48xlarge	GPU H100
자체 데이터 세트 가져오기(gen_qa) 벤치마크 레시피	8,192	1	ml.p5.48xlarge	GPU H100
Amazon Nova LLM을 판사 레시피로 사용	8,192	1	ml.p5.48xlarge	GPU H100
표준 텍스트 벤치마크	8,192	1	ml.p5.48xlarge	GPU H100
사용자 지정 데이터세트 평가	8,192	1	ml.p5.48xlarge	GPU H100
다중 모달 벤치마크	8,192	1	ml.p5.48xlarge	GPU H100

근접 정책 최적화
모델	Critic 모델 인스턴스 수	보상 모델 인스턴스 수	앵커 모델 인스턴스 수	액터 훈련	액터 생성	인스턴스 수	실행당 총 시간	P5시간	인스턴스 유형
Amazon Nova Micro	1	1	1	2	2	7	8	56	ml.p5.48xlarge
Amazon Nova Lite	1	1	1	2	2	7	16	112	ml.p5.48xlarge
Amazon Nova Pro	1	1	1	6	2	11	26	260	ml.p5.48xlarge

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

평가

RIG를 사용하여 HyperPod EKS 클러스터 생성