사용자 지정 모델에 대한 온디맨드 추론 - Amazon Nova

사용자 지정 모델에 대한 온디맨드 추론

온디맨드(OD) 추론을 사용하면, 프로비저닝된 처리량 엔드포인트를 유지하지 않고도 사용자 지정 Amazon Nova 모델에서 추론을 실행할 수 있습니다. 이를 통해 비용을 최적화하고 효율적으로 확장할 수 있습니다. 온디맨드 추론 사용 시 입력 및 출력 토큰 수를 기준으로 사용량에 따라 요금이 청구됩니다.

호환성 요구 사항

다음과 같은 호환성 요구 사항이 적용됩니다.

  • Amazon Nova Pro, Lite, Micro 사용자 지정 이해 모델에서 OD 추론을 지원합니다. Nova 사용자 지정 콘텐츠 생성 모델에서는 OD 추론을 지원하지 않습니다.

  • 2025년 7월 16일 이후에 학습된 Amazon Nova 사용자 지정 이해 모델에서만 OD 추론을 지원합니다. 2025년 7월 16일 이전에 학습된 사용자 지정 모델은 OD 추론과 호환되지 않습니다.

  • Amazon Bedrock 사용자 지정: Amazon Bedrock 사용자 지정을 사용해 만든 모델과 Amazon Bedrock을 사용해 교사 모델로부터 증류한 학생 모델에서 OD 추론을 지원합니다.

  • SageMaker AI 사용자 지정: SageMaker AI에서 사용자 지정한 모델 중 Amazon Bedrock에서 호스팅되는 파라미터 효율적 미세 조정(PEFT) 모델에서만 OD 추론을 지원합니다. 여기에는 직접 선호 최적화 + PEFT 모델이 포함됩니다. 전체 순위 미세 조정 모델에서는 OD 추론을 지원하지 않습니다.

모델 훈련 및 추론

2025년 7월 16일 이후 Amazon Bedrock 또는 SageMaker AI에서 PEFT를 사용해 새로운 Amazon Nova Pro, Lite, 또는 Micro 모델을 학습하면, 해당 모델은 프로비저닝된 추론 옵션과 온디맨드 추론 옵션 모두와 자동으로 호환됩니다. 모델 배포 시 원하는 추론 방식을 선택할 수 있습니다.

2025년 7월 16일 이후 학습한 모델에서 OD 추론을 사용하는 방법:

  1. Amazon Bedrock 사용자 지정 API 또는 SageMaker AI 사용자 지정 API를 사용해 새로운 미세 조정 작업을 생성합니다.

  2. CreateCustomModel API를 사용해 새로 학습한 모델을 Amazon Bedrock에 배포합니다.

  3. CustomModelDeployment API를 사용해 온디맨드 추론을 위한 배포를 수행합니다.

속도 제한

온디맨드 추론 요청에는 다음과 같은 분당 요청 수(RPM) 및 분당 토큰 수(TPM) 제한이 적용됩니다.

Base Model for Custom Model RPM per Custom Model Deployment TPM per Custom Model Deployment
Amazon Nova Micro 200 400,000
Amazon Nova Lite 200 400,000
Amazon Nova Pro 20 80,000

Amazon Nova의 가용 할당량에 대한 자세한 내용은 Amazon Nova 할당량 섹션을 참조하세요.

지연 시간

기본 모델 호출과 어댑터 간에는 엔드 투 엔드 지연 시간 차이, 즉 첫 토큰 생성까지 걸리는 시간(TTFT)이 약 20~55% 발생할 수 있습니다. 정확한 지연 시간 값은 모델 크기에 따라 달라지며, 업계 표준에 부합합니다.