리전 간 추론을 통한 복원력 개선 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

리전 간 추론을 통한 복원력 개선

온디맨드 모드에서 모델 추론을 실행하는 경우 서비스 할당량에 의해 또는 사용량이 가장 많은 시간 동안 요청이 제한될 수 있습니다. 리전 간 추론을 사용하면 다양한 에서 컴퓨팅을 활용하여 계획되지 않은 트래픽 버스트를 원활하게 관리할 수 있습니다 AWS 리전. 리전 간 추론을 사용하면 여러 에 트래픽을 분산 AWS 리전하여 수요가 가장 많은 기간 동안 처리량을 높이고 복원력을 높일 수 있습니다.

리전 간 추론을 사용하려면 , InvokeModel, InvokeModelWithResponseStream Converse 또는 ConverseStream 요청을 보낼 때 추론 프로파일의 ID를 로 지정하여 모델 추론을 실행할 modelId 때 추론 프로파일을 포함합니다. 추론 프로파일은 구성된 의 온디맨드 리소스 풀을 추상화한 것입니다 AWS 리전. 추론 프로필은 소스 리전에서 시작된 추론 요청을 풀에 구성된 다른 리전으로 라우팅할 수 있습니다. 리전 간 추론을 사용하면 추론 프로파일에 정의된 리전 간에 모델 호출 요청을 동적으로 라우팅하여 처리량을 늘리고 복원력을 높일 수 있습니다. 사용자 트래픽, 수요 및 리소스 사용률의 라우팅 요인입니다. 요청이 시작된 리전에서 이행됩니다.

리전 간 추론은 현재 다음 기능에 사용할 수 있습니다.

프로비저닝된 처리량 을 구매하여 모델의 처리량을 늘릴 수도 있습니다. 추론 프로필은 현재 프로비저닝된 처리량을 지원하지 않습니다.

리전 간 추론에 대한 다음 정보를 참고하세요.

  • 리전 간 추론을 사용하는 데 드는 추가 라우팅 비용은 없습니다. 가격은 추론 프로파일을 호출하는 리전을 기준으로 계산됩니다. 요금에 대한 자세한 내용은 Amazon Bedrock 요금 섹션을 참조하세요.

  • 리전 간 추론을 사용하는 경우 처리량은 추론 프로파일이 있는 리전에서 할당된 할당량의 최대 두 배에 도달할 수 있습니다. 처리량 증가는 추론 프로파일을 통해 수행된 호출에만 적용되며, 리전 내 모델 호출 요청을 선택한 경우에도 정규 할당량이 계속 적용됩니다. 예를 들어 미국 Anthropic Claude 3 Sonnet 미국 동부(버지니아 북부)(us-east-1)의 추론 프로파일로 처리량은 분당 최대 1,000개의 요청과 분당 2,000,000개의 토큰에 도달할 수 있습니다. 온디맨드 처리량의 기본 할당량을 보려면 의 런타임 할당량 섹션을 참조Amazon Bedrock의 할당량하거나 Service Quotas 콘솔을 사용합니다.

  • 리전 간 추론 요청은 사용된 추론 프로파일의 일부인 리전 내에 유지됩니다. 예를 들어 EU 추론 프로필로 이루어진 요청은 EU 리전 내에 유지됩니다.

리전 간 추론에 대한 자세한 내용은 Amazon Bedrock에서 리전 간 추론 시작하기를 참조하세요.