を使用した低レイテンシーのリアルタイム推論 AWS PrivateLink

フォーカスモード

を使用した低レイテンシーのリアルタイム推論 AWS PrivateLink - Amazon SageMaker AI

デプロイ AWS PrivateLink VPC に SageMaker AI エンドポイントをデプロイする SageMaker AI エンドポイントを呼び出す

Amazon SageMaker AI は、マルチ AZ 配置を使用して高可用性と耐障害性を維持しながら、リアルタイム推論のレイテンシーを低くします。アプリケーションレイテンシーは、インフラストラクチャーまたはオーバーヘッドレイテンシーとモデル推論レイテンシーという 2 つの主要な要素で構成されています。オーバーヘッドレイテンシーが減少することにより、より複雑で詳細かつ正確なモデルのデプロイや、スケーラブルで保守が容易なマイクロサービスモジュールへのモノリシックアプリケーションの分割といった、新たな可能性が開かれます。デプロイを使用して AWS PrivateLink SageMaker AI でリアルタイム推論のレイテンシーを減らすことができます。を使用すると AWS PrivateLink、インターフェイス VPC エンドポイントを使用して、スケーラブルな方法で仮想プライベートクラウド (VPC) からすべての SageMaker API オペレーションにプライベートにアクセスできます。インターフェイス VPC エンドポイントは、SageMaker API 呼び出しのエントリポイントとして機能するプライベート IP アドレスを持つサブネットの Elastic Network Interface です。

デフォルトでは、2 つ以上のインスタンスを持つ SageMaker AI エンドポイントは少なくとも 2 つの AWS アベイラビリティーゾーン (AZs) にデプロイされ、任意の AZ のインスタンスは呼び出しを処理できます。その結果、オーバーヘッドレイテンシーの原因となる 1 つ以上の AZ「ホップ」が発生します。privateDNSEnabled オプションを true に設定して AWS PrivateLink デプロイを実行すると、次の 2 つの目的を達成できます。

すべての推論トラフィックを VPC 内に保持する。
SageMaker ランタイムを使用する場合、呼び出しトラフィックと発信元のクライアントを同じ AZ に保持する。これにより AZ 間の「ホップ」が回避され、オーバーヘッドレイテンシが減少します。

このガイドの以下のセクションでは、 AWS PrivateLink デプロイによるリアルタイム推論のレイテンシーを減少する方法を示します。

デプロイ AWS PrivateLink

デプロイするには AWS PrivateLink、まず SageMaker AI エンドポイントに接続する VPC のインターフェイスエンドポイントを作成します。「インターフェイス VPC エンドポイントを使用して AWS サービスにアクセスする」の手順に従って、インターフェイスエンドポイントを作成してください。エンドポイントの作成中、コンソールインターフェイスで次の設定を選択します。

[その他の設定] の [DNS 名を有効化] チェックボックスをオンにします。
SageMaker AI エンドポイントで使用する適切なセキュリティグループとサブネットを選択します。

また、VPC の DNS ホスト名が有効になっていることも確認してください。VPC の DNS 属性を変更する方法の詳細については、「VPC の DNS 属性の表示と更新」を参照してください。

VPC に SageMaker AI エンドポイントをデプロイする

オーバーヘッドレイテンシーを低くするには、デプロイ時に指定したのと同じサブネットを使用して SageMaker AI エンドポイントを作成します AWS PrivateLink。これらのサブネットは、次のコードスニペットに示すように、クライアントアプリケーションの AZ と一致する必要があります。


model_name = '<the-name-of-your-model>'

vpc = 'vpc-0123456789abcdef0'
subnet_a = 'subnet-0123456789abcdef0'
subnet_b = 'subnet-0123456789abcdef1'
security_group = 'sg-0123456789abcdef0'

create_model_response = sagemaker_client.create_model(
    ModelName = model_name,
    ExecutionRoleArn = sagemaker_role,
    PrimaryContainer = {
        'Image': container,
        'ModelDataUrl': model_url
    },
    VpcConfig = {
        'SecurityGroupIds': [security_group],
        'Subnets': [subnet_a, subnet_b],
    },
)

前述のコードスニペットは、[開始する前に] の手順に従っていることを前提としています。

SageMaker AI エンドポイントを呼び出す

最後に、次のコードスニペットに示すように、SageMaker Runtime クライアントを指定し、SageMaker AI エンドポイントを呼び出します。


endpoint_name = '<endpoint-name>'
  
runtime_client = boto3.client('sagemaker-runtime')
response = runtime_client.invoke_endpoint(EndpointName=endpoint_name, 
                                          ContentType='text/csv', 
                                          Body=payload)

エンドポイント設定の詳細については、「リアルタイム推論用のモデルをデプロイする」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

セキュリティのベストプラクティスをモニタリングする

推論ワークロードを x86 から Graviton AWS に移行する

次のトピック

推論ワークロードを x86 から Graviton AWS に移行する

前のトピック:

セキュリティのベストプラクティスをモニタリングする

ヘルプが必要ですか?

このページの内容

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません