리전 간 추론을 통한 처리량 증가

리전 간 추론을 사용하면 특정 리전(예: 미국 또는 EU)에 연결된 리전 간 추론 프로파일을 선택하거나 글로벌 추론 프로파일을 선택할 수 있습니다. 특정 지리에 연결된 추론 프로파일을 선택하면 Amazon Bedrock은 해당 지리 AWS 리전 내에서 최적의 상용를 자동으로 선택하여 추론 요청을 처리합니다. 글로벌 추론 프로파일을 사용하면 Amazon Bedrock은 요청을 처리할 최적의 상용 AWS 리전 를 자동으로 선택하여 사용 가능한 리소스를 최적화하고 모델 처리량을 늘립니다.

온디맨드 모드에서 모델 추론을 실행할 때 서비스 할당량에 의해 또는 사용량이 가장 많은 시간에 요청이 제한될 수 있습니다. 리전 간 추론을 사용하면 다양한 컴퓨팅을 활용하여 계획되지 않은 트래픽 버스트를 원활하게 관리할 수 있습니다 AWS 리전. 리전 간 추론을 사용하면 트래픽을 여러에 분산 AWS 리전하여 처리량을 높일 수 있습니다.

프로비저닝된 처리량을 구매하여 모델의 처리량을 늘릴 수도 있습니다. 추론 프로파일은 현재 프로비저닝된 처리량을 지원하지 않습니다.

추론 프로파일을 사용하여 리전 간 추론을 실행할 수 있는 리전 및 모델을 보려면 섹션을 참조하세요추론 프로파일에 지원되는 리전 및 모델.

교차 리전(시스템 정의) 추론 프로파일은 지원하는 모델의 이름을 따서 이름이 지정되고 지원하는 리전에서 정의됩니다. 교차 리전 추론 프로파일이 요청을 처리하는 방법을 이해하려면 다음 정의를 검토하세요.

소스 리전 - 추론 프로파일을 지정하는 API 요청을 수행하는 리전입니다.
대상 리전 - Amazon Bedrock 서비스가 소스 리전에서 요청을 라우팅할 수 있는 리전입니다.

Amazon Bedrock에서 리전 간 추론 프로파일을 호출하면 요청은 소스 리전에서 시작되고 해당 프로파일에 정의된 대상 리전 중 하나로 자동으로 라우팅되어 성능을 최적화합니다. 글로벌 리전 간 추론 프로파일의 대상 리전에는 모든 상용 리전이 포함됩니다.

참고

교차 리전 추론 프로파일의 대상 리전에는 AWS 계정 또는 조직 수준에서 명시적으로 활성화해야 하는 리전인 옵트인 리전이 포함될 수 있습니다. 자세한 내용은 계정 AWS 리전 에서 활성화 또는 비활성화를 참조하세요. 교차 리전 추론 프로파일을 사용하는 경우 계정의 해당 리전에 옵트인하지 않았더라도 프로파일의 대상 리전으로 추론 요청을 라우팅할 수 있습니다.

서비스 제어 정책(SCPs)과 AWS Identity and Access Management (IAM) 정책은 함께 작동하여 리전 간 추론이 허용되는 위치를 제어합니다. SCPs 사용하면 Amazon Bedrock이 추론에 사용할 수 있는 리전을 제어할 수 있으며, IAM 정책을 사용하면 추론을 실행할 권한이 있는 사용자 또는 역할을 정의할 수 있습니다. 교차 리전 추론 프로파일의 대상 리전이 SCPs에서 차단된 경우 다른 리전이 허용된 상태로 남아 있더라도 요청이 실패합니다. 리전 간 추론을 통한 효율적인 작업을 보장하기 위해 SCPs 및 IAM 정책을 업데이트하여 선택한 추론 프로파일에 포함된 모든 대상 리전에서 필요한 모든 Amazon Bedrock 추론 작업(예: bedrock:InvokeModel* 또는 bedrock:CreateModelInvocationJob)을 허용할 수 있습니다. 자세한 내용은 다중 계정 환경에서 Amazon Bedrock 교차 리전 추론 활성화를 참조하세요.

참고

일부 추론 프로필은 호출하는 소스 리전에 따라 다른 대상 리전으로 라우팅됩니다. 예를 들어 미국 동부(오하이오)us.anthropic.claude-3-haiku-20240307-v1:0에서를 호출하면 요청을 us-east-1, us-east-2또는 로 라우팅할 수 us-west-2있지만 미국 서부(오레곤)에서 호출하면 요청을 us-east-1 및 로만 라우팅할 수 있습니다us-west-2.

소스 및 대상 리전에서 추론 프로파일을 확인하려면 다음 중 하나를 수행할 수 있습니다.

지원되는 리전 간 추론 프로필 목록에서 해당 섹션을 확장합니다.
소스 리전의 Amazon Bedrock 컨트롤 플레인 엔드포인트를 사용하여 GetInferenceProfile 요청을 보내고 inferenceProfileIdentifier 필드에 추론 프로파일의 Amazon 리소스 이름(ARN) 또는 ID를 지정합니다. 응답의 models 필드는 각 대상 리전을 식별할 수 있는 모델 ARNs 목록에 매핑됩니다.

참고

가 요청을 처리할 수 있는 더 많은 상용 리전을 AWS 추가함에 따라 특정 모델에 대한 글로벌 리전 간 추론 프로필은 시간이 지남에 따라 변경될 수 있습니다. 그러나 추론 프로파일이 지리(예: 미국, EU 또는 APAC)에 연결된 경우 대상 리전 목록은 변경되지 않습니다.는 새 리전을 통합하는 새 추론 프로파일을 생성할 AWS 수 있습니다. 설정의 IDs를 새 ID로 변경하여 이러한 추론 프로파일을 사용하도록 시스템을 업데이트할 수 있습니다.

글로벌 리전 간 추론 프로파일은 현재 미국 서부(오레곤), 미국 동부(버지니아 북부), 미국 동부(오하이오), 유럽(아일랜드), 아시아 태평양(도쿄) 소스 리전의 Anthropic Claude Sonnet 4 모델에서만 지원됩니다. 글로벌 추론 프로파일의 대상 리전에는 모든 상용 리전이 포함됩니다 AWS 리전.

리전 간 추론에 대한 다음 정보를 참고하세요.

리전 간 추론을 사용하는 데 드는 추가 라우팅 비용은 없습니다. 요금은 추론 프로파일을 호출하는 리전을 기준으로 계산됩니다. 요금에 대한 자세한 내용은 Amazon Bedrock 요금을 참조하세요.
글로벌 리전 간 추론 프로파일은 특정 리전에 연결된 추론 프로파일보다 높은 처리량을 제공합니다. 특정 지리에 연결된 추론 프로파일은 단일 리전 추론보다 높은 처리량을 제공합니다.
리전(예: 미국, EU 및 APAC)에 연결된 추론 프로파일을 사용할 때 리전 간 처리량에 대한 기본 할당량을 보려면 AWS 일반 참조의 Amazon Bedrock 서비스 할당량에서 ${Model}에 대한 분당 리전 간 모델 추론 요청 및 ${Model} 값에 대한 분당 리전 간 모델 추론 토큰을 참조하세요.
글로벌 추론 프로파일을 사용할 때 리전 간 처리량에 대한 기본 할당량을 보려면 AWS 일반 참조의 Amazon Bedrock 서비스 할당량에서 ${Model}에 대한 분당 글로벌 리전 간 모델 추론 요청 및 ${Model} 값에 대한 분당 글로벌 리전 간 모델 추론 토큰을 참조하세요.

Service Quotas 콘솔에서 또는 미국 동부(버지니아 북부) 리전에서 AWS CLI 명령을 사용하여 글로벌 리전 간 추론 프로파일에 대한 할당량을 요청, 확인 및 관리할 수 있습니다. 글로벌 리전 간 추론 할당량은 글로벌 추론 프로파일에 나열된 다른 소스 리전의 Service Quotas 콘솔 또는 AWS CLI에 표시되지 않습니다.
리전(예: 미국, EU 및 APAC)에 연결된 추론 프로파일에 대한 리전 간 추론 요청은 데이터가 원래 상주 AWS 리전 하는 리전의 일부인 내에 유지됩니다. 예를 들어 미국 내에서 이루어진 요청은 AWS 리전 미국 내에서 유지됩니다. 데이터는 소스 리전에만 저장되지만 교차 리전 추론 중에 입력 프롬프트 및 출력 결과가 소스 리전 외부로 이동할 수 있습니다. 모든 데이터는 Amazon의 보안 네트워크를 통해 암호화되어 전송됩니다.
AWS Amazon Bedrock에서 제공하는 서비스도 CRIS를 사용할 수 있습니다. 자세한 내용은 서비스별 설명서를 참조하세요.

교차 리전(시스템 정의) 추론 프로파일 사용

리전 간 추론을 사용하려면 다음과 같은 방법으로 모델 추론을 실행할 때 추론 프로파일을 포함합니다.

온디맨드 모델 추론 - InvokeModel, InvokeInvokeModelWithResponseStream, Converse 또는 ConverseStream 요청을 전송할 modelId 때 추론 프로파일의 ID를 로 지정합니다. 추론 프로필은 소스 리전에서 시작된 추론 요청을 라우팅할 수 있는 하나 이상의 리전을 정의합니다. 교차 리전 추론을 사용하면 추론 프로파일에 정의된 리전 간에 모델 호출 요청을 동적으로 라우팅하여 처리량과 성능이 향상됩니다. 사용자 트래픽, 수요 및 리소스 사용률의 라우팅 요인입니다. 자세한 내용은 모델 추론을 사용하여 프롬프트 제출 및 응답 생성 섹션을 참조하세요.
배치 추론 - CreateModelInvocationJob 요청을 보낼 modelId 때 추론 프로파일의 ID를 로 지정하여 배치 추론과 비동기적으로 요청을 제출합니다. 추론 프로파일을 사용하면 여러에서 컴퓨팅을 활용하고 배치 작업의 처리 시간을 AWS 리전 단축할 수 있습니다. 작업이 완료되면 소스 리전의 Amazon S3 버킷에서 출력 파일을 검색할 수 있습니다.
에이전트 - CreateAgent 요청의 foundationModel 필드에 추론 프로파일의 ID를 지정합니다. 자세한 내용은 에이전트를 수동으로 생성 및 구성 단원을 참조하십시오.
지식 기반 응답 생성 - 지식 기반을 쿼리한 후 응답을 생성할 때 교차 리전 추론을 사용할 수 있습니다. 자세한 내용은 쿼리 및 응답을 사용하여 지식 기반 테스트 단원을 참조하십시오.
모델 평가 - 모델 평가 작업을 제출할 때 평가할 모델로 추론 프로파일을 제출할 수 있습니다. 자세한 내용은 Amazon Bedrock 리소스의 성능 평가 단원을 참조하십시오.
프롬프트 관리 - 프롬프트 관리에서 생성한 프롬프트에 대한 응답을 생성할 때 리전 간 추론을 사용할 수 있습니다. 자세한 내용은 Amazon Bedrock에서 프롬프트 관리를 사용하여 재사용 가능한 프롬프트 구성 및 저장 섹션을 참조하세요.
프롬프트 흐름 - 프롬프트 흐름의 프롬프트 노드에서 인라인을 정의하는 프롬프트에 대한 응답을 생성할 때 리전 간 추론을 사용할 수 있습니다. 자세한 내용은 Amazon Bedrock Flows를 사용하여 end-to-end 생성형 AI 워크플로 구축 단원을 참조하십시오.

참고

글로벌 추론 프로파일은 온디맨드 모델 추론, 배치 추론, 에이전트, 모델 평가, 프롬프트 관리 및 프롬프트 흐름에 대해 지원됩니다.

추론 프로파일을 사용하여 리전 간에 모델 호출 요청을 보내는 방법을 알아보려면 섹션을 참조하세요모델 간접 호출에 추론 프로파일 사용.

리전 간 추론에 대한 자세한 내용은 Amazon Bedrock에서 리전 간 추론 시작하기를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

사용 사례 처리

프로비저닝된 처리량: 모델 처리량 증가