最適化手法最適化済みモデルをデプロイする最適化ジョブを作成する最適化ジョブの結果を表示するパフォーマンスの評価サポートされているモデルのリファレンス

Amazon でモデル推論を最適化する SageMaker

Amazon を使用すると SageMaker、推論の最適化手法を適用することで、生成 AI モデルのパフォーマンスを向上させることができます。モデルを最適化することで、ユースケースのコストパフォーマンスを向上させることができます。モデルを最適化するときは、量子化、投機的デコード、コンパイルなど、サポートされている最適化手法のどれを適用するかを選択します。モデルを最適化したら、評価を実行して、レイテンシー、スループット、料金のパフォーマンスメトリクスを確認できます。

多くのモデル SageMaker では、には事前に最適化されたバージョンもいくつか用意されており、それぞれがレイテンシーとスループットに対するさまざまなアプリケーションのニーズに対応しています。このようなモデルの場合、最初にモデルを自分で最適化しなくても、最適化されたバージョンの 1 つをデプロイできます。

最適化手法

Amazon では、以下の最適化手法 SageMaker をサポートしています。

投機的デコード

投機的デコードは、大規模な LLMs。生成されたテキストの品質を損なうことなく、モデルのレイテンシーを最適化します。

この手法では、ドラフトモデルと呼ばれる、より小さく高速なモデルを使用します。ドラフトモデルは候補トークンを生成し、大きくても遅いターゲットモデルによって検証されます。各反復で、ドラフトモデルは複数の候補トークンを生成します。ターゲットモデルはトークンを検証し、特定のトークンが受け入れられないことが判明した場合、トークンを拒否して再生成します。したがって、ターゲットモデルはトークンを検証し、少量を生成します。

ドラフトモデルはターゲットモデルよりも大幅に高速です。すべてのトークンをすばやく生成し、検証のためにターゲットモデルにそれらのバッチを送信します。ターゲットモデルはこれらすべてを並行して評価するため、最終的なレスポンスが高速化されます。

SageMaker は、使用できる構築済みのドラフトモデルを提供するため、独自のモデルを構築する必要はありません。独自のカスタムドラフトモデルを使用する場合は、 SageMaker もこのオプションをサポートしています。

量子化

量子化は、重みとアクティベーションに精度の低いデータ型を使用することで、モデルのハードウェア要件を減らす手法です。量子化を使用してモデルを最適化した後、より安価で利用可能な GPUsでモデルをホストできます。ただし、量子化されたモデルは、最適化したソースモデルよりも精度が低い可能性があります。

SageMaker は GPUsをサポートしています。AWQ は、効率的、正確、低ビット、および重みのみの LLMs 用の量子化手法です。

コンパイル

コンパイルは、精度を失うことなく、選択したハードウェアタイプで利用可能な最高のパフォーマンスを得るためにモデルを最適化します。モデルコンパイルを適用して、Trainium や Inferentia などの AWS 高速ハードウェアの LLMs AWS を最適化できます。

コンパイルでモデルを最適化すると、コンパイルの ahead-of-time恩恵を受けることができます。モデルが新しいインスタンスにデプロイされるときにモデルの重みを just-in-time コンパイルする必要がないため、モデルのデプロイ時間と自動スケーリングのレイテンシーを短縮できます。

最適化済みモデルをデプロイする

の一部のモデルはによって事前に最適化 JumpStart されています。つまり SageMaker、まず推論最適化ジョブを作成しなくても、これらのモデルの最適化されたバージョンをデプロイできます。事前に最適化されたオプションを持つモデルのリストについては、「」を参照してくださいサポートされているモデルのリファレンス。

最適化済みモデルをデプロイするには

SageMaker Studio の左側のナビゲーションメニューで、を選択しますJumpStart。
「すべてのパブリックモデル」ページで、事前に最適化されているモデルを 1 つ選択します。
モデルの詳細ページで、デプロイ を選択します。
デプロイページで、一部の JumpStart モデルでは、続行する前にエンドユーザーライセンス契約 (EULA) に署名する必要があります。リクエストされた場合は、「ライセンス契約」セクションのライセンス条項を確認してください。利用規約がユースケースに合っている場合は、「EULA に同意する」のチェックボックスをオンにし、利用規約をお読みください。

詳細については、「エンドユーザーライセンス契約」を参照してください。
エンドポイント名 と初期インスタンス数 では、デフォルト値を受け入れるか、カスタム値を設定します。
インスタンスタイプの場合、デフォルト値のままにします。それ以外の場合、事前に最適化された設定をデプロイすることはできません。
「モデル」で、モデル設定を展開します。Studio には、選択できる事前最適化設定を提供するテーブルが表示されます。各オプションには、レイテンシーとスループットのメトリクスがあります。アプリケーションのニーズに最適なオプションを選択します。
[デプロイ] を選択します。

次のコード例は、Amazon SageMaker Python SDK を使用して事前に最適化されたモデルをデプロイする方法を示しています。

ModelBuilder クラス SageMaker を使用してモデルをに定義します。


# sample payload
response = "Hello, I'm a language model, and I'm here to help you with your English."
sample_input = {
    "inputs": "Hello, I'm a language model,",
    "parameters": {"max_new_tokens":128, "do_sample":True}
}
sample_output = [
    {
        "generated_text": response
    }
]
# specify the Model ID for JumpStart
model_builder = ModelBuilder(
    model="meta-textgeneration-llama-3-8b",
    schema_builder=SchemaBuilder(sample_input, sample_output),
    sagemaker_session=sagemaker_session,
    role_arn=my_role,
)

モデルのベンチマーク済み設定を一覧表示します。


model_builder.display_benchmark_metrics()
# displays pre-benchmarking results

display_benchmark_metrics() 呼び出しによって返された優先値instance_typeとconfig_name値を使用して、デプロイ設定を設定します。


model_builder.set_deployment_config()
# set pre-optimized config 
bulder.set_deployment_config(
  instance_type="ml.g5.12xlarge",
  config_name="lmi-optimized"
)

.build() を呼び出してモデルを構築し、 .deploy を呼び出してエンドポイントにデプロイします。次に、モデル予測をテストします。


# build the deployable model
model = model_builder.build()

# deploy the model to a SageMaker endpoint
predictor = model.deploy(accept_eula=True)

# use sample input payload to test the deployed endpoint
predictor.predict(sample_input)

推論最適化ジョブを作成する

Studio または SageMaker Python SDK を使用して、推論最適化ジョブを作成できます。

推論最適化ジョブのインスタンス料金

量子化またはコンパイルを適用する推論最適化ジョブを作成すると、 SageMaker はジョブの実行に使用するインスタンスタイプを選択します。使用したインスタンスに基づいて課金されます。

可能なインスタンスタイプとその料金の詳細については、Amazon 料金ページの推論最適化の SageMaker 料金情報を参照してください。

投機的デコードを適用するジョブに追加コストは発生しません。

Studio で推論最適化ジョブを作成するには、次のステップを実行します。

最適化ジョブの作成を開始するには

SageMaker Studio で、次のいずれかのパスを使用して最適化ジョブを作成します。
- JumpStart モデルのジョブを作成するには、次の手順を実行します。
  1. ナビゲーションメニューで [JumpStart] を選択します。
  2. 「すべてのパブリックモデル」ページで、モデルプロバイダーを選択し、最適化をサポートするモデルのいずれかを選択します。
  3. モデルの詳細ページで、最適化 を選択します。このボタンは、最適化をサポートするモデルでのみ有効になります。
  4. 推論最適化ジョブの作成ページで、一部の JumpStart モデルでは、続行する前にエンドユーザーライセンス契約 (EULA) に署名する必要があります。リクエストされた場合は、「ライセンス契約」セクションのライセンス条項を確認してください。利用規約がユースケースで許容できる場合は、EULA に同意するのチェックボックスをオンにし、利用規約をお読みください。
- 微調整された JumpStart モデルのジョブを作成するには、次の手順を実行します。
  1. ナビゲーションメニューのジョブ で、トレーニング を選択します。
  2. トレーニングジョブページで、 JumpStart モデルの微調整に使用したジョブの名前を選択します。これらのジョブには、ジョブタイプ列の タイプJumpStart トレーニングがあります。
  3. トレーニングジョブの詳細ページで、 の最適化を選択します。
- カスタムモデルのジョブを作成するには、次の手順を実行します。
  1. ナビゲーションメニューのジョブ で、推論最適化 を選択します。
  2. [Create new job (新しいジョブを作成)] を選択します。
  3. 推論最適化ジョブの作成ページで、モデルの追加 を選択します。
  4. モデルの追加ウィンドウで、カスタムモデル を選択します。
  5. カスタムモデル名 には、名前を入力します。
  6. S3 URI には、モデルアーティファクトを保存した Amazon S3 内の場所の URI を入力します。
推論最適化ジョブの作成ページのジョブ名では、 が SageMaker 割り当てるデフォルト名を受け入れることができます。または、カスタムジョブ名を入力するには、ジョブ名フィールドを選択し、ジョブ名の入力を選択します。

最適化設定を設定するには

デプロイインスタンスタイプ で、モデルを最適化するインスタンスタイプを選択します。

インスタンスタイプは、選択できる最適化手法に影響します。GPU ハードウェアを使用するほとんどのタイプでは、サポートされている手法は量子化と投機的デコードです。Inferentia インスタンス ml.inf2.8xlarge AWS などのカスタムシリコンを使用するインスタンスを選択した場合、サポートされている手法はコンパイル です。コンパイルを使用して、その特定のハードウェアタイプのモデルをコンパイルできます。
Studio が提供する最適化手法を 1 つ以上選択します。
- 量子化 を選択した場合は、精度データ型のデータ型を選択します。
- 投機的デコードを選択した場合、 SageMaker が提供するSageMaker ドラフトモデルを使用する場合はドラフトモデルを選択します。または、独自のドラフトモデルを使用する場合は、独自のドラフトモデル を使用し、それを見つける S3 URI を指定します。
- カスタムシリコンを使用するインスタンスを選択した場合、Studio は、サポートされているオプションの 1 つがコンパイルであることを示す場合があります。この場合、Studio はこのオプションを選択します。
出力には、Amazon S3 内の場所の URI を入力します。ジョブ SageMaker が作成する最適化されたモデルのアーティファクトが保存されます。
（オプション) Advanced オプションを展開して、IAM ロール、VPC、環境変数などの設定をよりきめ細かく制御できます。詳細については、以下の「詳細オプション」を参照してください。
ジョブの設定が完了したら、ジョブの作成 を選択します。

Studio にはジョブの詳細ページが表示され、ジョブのステータスとそのすべての設定が表示されます。

詳細オプション

推論最適化ジョブを作成するときに、次の詳細オプションを設定できます。

設定では、次のオプションを設定できます。

テンソル並列度

テンソル並列度 の値。テンソル並列処理は、特定のモデルの重み、勾配、オプティマイザ状態がデバイス間で分割されるモデル並列処理の一種です。値は、クラスター内の GPUs の数を均等に分割する必要があります。

トークンの最大長

モデルによって生成されるトークンの数の制限。モデルが常にトークンの最大数を生成するとは限りません。

同時実行

同じ基盤となるハードウェアでモデルの複数のインスタンスを実行する機能。同時実行を使用して複数のユーザーに予測を提供し、ハードウェア使用率を最大化します。

バッチサイズ

モデルが をバッチ推論する場合は、このオプションを使用して、モデルが処理するバッチのサイズを制御します。

バッチ推論は、観測値のバッチでモデル予測を生成します。大規模なデータセットや、推論リクエストにすぐに応答する必要がない場合に適しています。

セキュリティ では、次のオプションを設定できます。

IAM ロール

がユーザーに代わってタスクを実行 SageMaker できるようにする IAM ロール。モデルの最適化中、には以下のアクセス許可 SageMaker が必要です。

S3 バケットからの入力データの読み取り
S3 バケットへのモデルアーティファクトの書き込み
Amazon CloudWatch Logs へのログの書き込み
Amazon にメトリクスを発行する CloudWatch

これらのすべてのタスクに対するアクセス許可を IAM ロールに付与します。

詳細については、「 SageMaker 実行ロールの使用方法」を参照してください。

暗号化 KMS キー

AWS Key Management Service （AWS KMS) のキー。は、モデルを Amazon S3 にアップロードするときに、それらのキー SageMaker を使用して、最適化されたモデルのアーティファクト SageMaker を暗号化します。

VPC

SageMaker はこの情報を使用してネットワークインターフェイスを作成し、モデルコンテナにアタッチします。ネットワークインターフェイスは、インターネットに接続されていない VPC 内のネットワーク接続をモデルコンテナに提供します。また、モデルがプライベート VPC 内のリソースに接続できるようにします。

詳細については、「 SageMaker ホストされたエンドポイントに Amazon のリソースへのアクセスを許可する VPC」を参照してください。

ネットワーク分離を有効にする

コンテナのインターネットアクセスを制限する場合は、このオプションを有効にします。ネットワーク分離で実行されるコンテナは、アウトバウンドネットワークコールを実行できません。

高度なコンテナ定義 では、次のオプションを設定できます。

停止条件

ジョブを実行できる期間の制限を指定します。ジョブが時間制限に達すると、はジョブを SageMaker 終了します。このオプションを使用してコストを制限します。

タグ

最適化ジョブに関連付けられたキーと値のペア。

タグの詳細については、「」の「 AWS リソースのタグ付け」を参照してくださいAWS 全般のリファレンス。

環境変数

モデルコンテナに設定する環境変数を定義するキーと値のペア。

次のコード例は、Amazon SageMaker Python SDK でモデル推論を最適化する方法を示しています。

例で SageMaker モデルを定義するコード `ModelBuilder`


# sample payload
response = "Hello, I'm a language model, and I'm here to help you with your English."
sample_input = {
    "inputs": "Hello, I'm a language model,",
    "parameters": {"max_new_tokens":128, "do_sample":True}
}
sample_output = [
    {
        "generated_text": response
    }
]
# specify the Model ID for JumpStart
model_builder = ModelBuilder(
    model="meta-textgeneration-llama-3-8b",
    schema_builder=SchemaBuilder(sample_input, sample_output),
    sagemaker_session=sagemaker_session,
    role_arn=my_role,
)

例量子化で最適化するコード


optimized_model = model_builder.optimize(
    instance_type="ml.g5.12xlarge",
    accept_eula=True,
    quantization_config={
        "OverrideEnvironment": {
            "OPTION_QUANTIZE": "awq"
        }
    },
    output_path=f"s3://{output_bucket_name}/quantized/"
)

# deploy the optimized model to a SageMaker endpoint
predictor = optimized_model.deploy(accept_eula=True)

# use sample input payload to test the deployed endpoint
predictor.predict(sample_input)

例投機的デコードで最適化するコード


optimized_model = model_builder.optimize(
    instance_type="ml.g5.12xlarge",
    accept_eula=True,
    speculative_decoding_config={
        # Use SageMaker provided draft model
        "ModelProvider": "SAGEMAKER",
    },
)

# deploy the optimized model to a SageMaker endpoint
predictor = optimized_model.deploy(accept_eula=True)

# use sample input payload to test the deployed endpoint
predictor.predict(sample_input)

例コンパイルで最適化するコード


optimized_model = model_builder.optimize(
    accept_eula=True,
    instance_type="ml.inf2.48xlarge",
    # config options for Inferentia2 instances
    compilation_config={
        "OverrideEnvironment": {
            "OPTION_TENSOR_PARALLEL_DEGREE": "2",
            "OPTION_N_POSITIONS": "2048",
            "OPTION_DTYPE": "fp16",
            "OPTION_ROLLING_BATCH": "auto",
            "OPTION_MAX_ROLLING_BATCH_SIZE": "4",
            "OPTION_NEURON_OPTIMIZE_LEVEL": "2"
        }
    },
    output_path=f"s3://<Enter your bucket name here>",
)

# deploy the compiled model to a SageMaker endpoint
predictor = compiled_model.deploy(accept_eula=True)

# use sample input payload to test the deployed endpoint
predictor.predict(sample_input)

最適化ジョブの結果を表示する

1 つ以上の最適化ジョブを作成したら、Studio を使用してすべてのジョブの概要テーブルを表示し、個々のジョブの詳細を表示できます。

最適化ジョブの概要テーブルを表示するには

Studio ナビゲーションメニューのジョブ で、推論の最適化 を選択します。

推論最適化ページには、作成したジョブを表示するテーブルが表示されます。ジョブごとに、適用した最適化設定とジョブのステータスが表示されます。

ジョブの詳細を表示するには

推論最適化ページのサマリーテーブルで、ジョブの名前を選択します。

Studio にはジョブの詳細ページが表示されます。このページには、ジョブのステータスと、ジョブの作成時に適用したすべての設定が表示されます。ジョブが正常に完了すると、は最適化されたモデルアーティファクトを Amazon S3 URI の Amazon S3 の場所に SageMaker 保存しました。

最適化モデルのパフォーマンスを評価する

最適化ジョブを使用して最適化されたモデルを作成したら、モデルのパフォーマンスの評価を実行できます。この評価により、レイテンシー、スループット、料金のメトリクスが得られます。これらのメトリクスを使用して、最適化されたモデルがユースケースのニーズを満たしているかどうか、またはさらなる最適化が必要かどうかを判断します。

パフォーマンス評価は Studio を使用してのみ実行できます。この機能は Amazon SageMaker API または Python SDK では提供されません。

開始する前に

パフォーマンス評価を作成する前に、まず推論最適化ジョブを作成してモデルを最適化する必要があります。Studio では、これらのジョブで作成したモデルのみを評価できます。

パフォーマンス評価を作成する

Studio で次の手順を実行して、最適化されたモデルのパフォーマンス評価を作成します。

Studio ナビゲーションメニューのジョブ で、推論の最適化 を選択します。
評価する最適化されたモデルを作成したジョブの名前を選択します。
ジョブの詳細ページで、パフォーマンスの評価を選択します。
「パフォーマンスの評価」ページで、一部の JumpStartモデルでは、続行する前にエンドユーザーライセンス契約 (EULA) に署名する必要があります。リクエストされた場合は、「ライセンス契約」セクションのライセンス条項を確認してください。利用規約がユースケースに当てはまる場合は、EULA に同意するのチェックボックスをオンにし、利用規約をお読みください。
トークナイザのモデルを選択する では、デフォルトを受け入れるか、評価のトークナイザとして機能する特定のモデルを選択します。
入力データセットで、以下を行うかどうかを選択します。
- のデフォルトのサンプルデータセットを使用します SageMaker。
- 独自のサンプルデータセットを指す S3 URI を指定します。
パフォーマンス結果の S3 URI には、評価結果を保存する Amazon S3 内の場所を指す URI を指定します。
評価を選択します。

Studio にはパフォーマンス評価ページが表示され、評価ジョブが表に表示されます。ステータス 列には、評価のステータスが表示されます。
ステータスが完了になったら、ジョブの名前を選択して評価結果を表示します。

評価の詳細ページには、レイテンシー、スループット、料金のパフォーマンスメトリクスを示すテーブルが表示されます。

推論パフォーマンス評価のメトリクスリファレンス

最適化モデルのパフォーマンスを正常に評価した後、Studio の評価の詳細ページに次のメトリクスが表示されます。

レイテンシーメトリクス

レイテンシーセクションには、次のメトリクスが表示されます。

同時実行: エンドポイントを同時に呼び出すために評価がシミュレートした同時ユーザー数。
最初のトークンまでの時間 (ms): リクエストが送信されてからストリーミングレスポンスの最初のトークンが受信されるまでに経過した時間。
トークン間レイテンシー (ms): 各リクエストの出力トークンを生成する時間。
クライアントのレイテンシー (ms): リクエストが送信されてからレスポンス全体が受信されるまでのリクエストのレイテンシー。
入力トークン/秒 (カウント）: すべてのリクエストで生成された入力トークンの合計数を、同時実行の合計時間を秒単位で割ったものです。
出力トークン/秒 (カウント）: すべてのリクエストで生成された出力トークンの合計数を、同時実行の合計時間を秒単位で割ったものです。
クライアント呼び出し (カウント）: 同時実行ですべてのユーザーにわたってエンドポイントに送信された推論リクエストの合計数。
クライアント呼び出しエラー (カウント）: 特定の同時実行でエンドポイントに送信された推論リクエストの合計数。呼び出しエラーが発生しました。
トークナイザーが失敗しました (カウント）: トークナイザがリクエストまたはレスポンスの解析に失敗した推論リクエストの合計数。
空の推論レスポンス (カウント）: ゼロ出力トークンまたはトークナイザがレスポンスの解析に失敗した推論リクエストの合計数。

スループットメトリクス

スループットセクションには、次のメトリクスが表示されます。

同時実行: エンドポイントを同時に呼び出すために評価がシミュレートした同時ユーザー数。
入力トークン/秒/リクエスト (カウント）: リクエストごとに 1 秒あたりに生成された入力トークンの合計数。
出力トークン/秒/リクエスト (カウント）: リクエストごとに 1 秒あたりに生成された出力トークンの合計数。
入力トークン (カウント）: リクエストごとに生成された入力トークンの合計数。
出力トークン (カウント）: リクエストごとに生成された出力トークンの合計数。

料金メトリクス

Price セクションには、次のメトリクスが表示されます。

同時実行: エンドポイントを同時に呼び出すために評価がシミュレートした同時ユーザー数。
100 万入力トークンあたりの料金: 1M0 万の入力トークンの処理コスト。
100 万出力トークンあたりの料金: 1M0 万個の出力トークンを生成するコスト。

サポートされているモデルのリファレンス

次の表は、が推論の最適化 SageMaker をサポートするモデルと、サポートされている最適化手法を示しています。

推論の最適化をサポートするモデル
モデル名	JumpStart モデル ID	量子化をサポート	投機的デコードをサポート	SageMaker ドラフトモデルによる投機的デコード
ファルコン	huggingface-llm-falcon-40b-bf16	はい	はい	なし
	huggingface-llm-falcon-40b-instruct-bf16	はい	はい	なし
	huggingface-llm-falcon-180b-chat-bf16	なし	はい	なし
	huggingface-llm-falcon-180b-bf16	なし	はい	いいえ
	huggingface-llm-amazon-falconlite	はい	はい	なし
	huggingface-llm-amazon-falconlite2	はい	はい	なし
	huggingface-llm-tiiuae-falcon-rw-1b	はい	はい	なし
	huggingface-llm-falcon-7b-bf16	はい	はい	なし
	huggingface-llm-falcon-7b-instruct-bf16	はい	はい	なし
	huggingface-llm-falcon2～11b	はい	はい	なし
gpt-eox	huggingface-textgeneration2-gpt-neoxt-chat-base-20b-fp16	はい	はい	なし
gpt-eox	huggingface-textgeneration2-gpt-neox-20b-fp16	はい	はい	なし
LLaMA	meta-textgeneration-llama-3-70b-instruct	はい	はい	あり
	meta-textgeneration-llama-3～70b	はい	はい	あり
	meta-textgeneration-llama-3～8b	はい	はい	あり
	meta-textgeneration-llama-3-8b-instruct	はい	はい	あり
	meta-textgeneration-llama-2～7b	はい	はい	あり
	meta-textgeneration-llama-2-7b-f	はい	はい	あり
	meta-textgeneration-llama-2-13b	はい	はい	あり
	meta-textgeneration-llama-2-13b-f	はい	はい	あり
	meta-textgeneration-llama-2～70b	はい	はい	あり
	meta-textgeneration-llama-2-70b-f	はい	はい	あり
	meta-textgeneration-llama-codellama-7b	はい	はい	あり
	meta-textgeneration-llama-codellama-7b-instruct	はい	はい	あり
	meta-textgeneration-llama-codellama-7b-Python	はい	はい	あり
	meta-textgeneration-llama-codellama-13b	はい	はい	あり
	meta-textgeneration-llama-codellama-13b-instruct	はい	はい	あり
	meta-textgeneration-llama-codellama-13b-Python	はい	はい	あり
	meta-textgeneration-llama-codellama-34b	はい	はい	あり
	meta-textgeneration-llama-codellama-34b-instruct	はい	はい	あり
	meta-textgeneration-llama-codellama-34b-Python	はい	はい	あり
	meta-textgeneration-llama-codellama-70b	はい	はい	あり
	meta-textgeneration-llama-codellama-70b-instruct	はい	はい	あり
	meta-textgeneration-llama-codellama-70b-Python	はい	はい	あり
	meta-textgeneration-llama-guard-7b	はい	はい	はい
ブルーム	huggingface-textgeneration-bloom-1b7	はい	はい	なし
	huggingface-textgeneration-bloom-1b1	はい	はい	なし
	huggingface-textgeneration-bloom-560m	はい	はい	なし
	huggingface-textgeneration-bloomz-560m	はい	はい	なし
	huggingface-textgeneration-bloomz-1b1	はい	はい	なし
	huggingface-textgeneration-bloomz-1b7	はい	はい	なし
	huggingface-textgeneration1-bloomz-7b1-fp16	はい	はい	なし
	huggingface-textgeneration1-bloom-7b1	はい	はい	なし
	huggingface-textgeneration1-bloomz-3b-fp16	はい	はい	なし
	huggingface-textgeneration1-bloom-3b	はい	はい	なし
	huggingface-textembedding-bloom-7b1	はい	はい	なし
	huggingface-textembedding-bloom-7b1-fp16	はい	はい	なし
Cohere	huggingface-llm-cohereforai-c4ai-command-r-plus	あり
Gemma	huggingface-llm-gemma-7b	はい	はい	なし
	huggingface-llm-gemma-7b-instruct	はい	はい	なし
	huggingface-llm-gemma-2b	はい	はい	なし
	huggingface-llm-gemma-2b-instruct	はい	はい	なし
	huggingface-llm-zephyr-7b-gemma	はい	はい	なし
gpt2	huggingface-textgeneration-gpt2	あり	いいえ	なし
gpt2	huggingface-textgeneration-distilgpt2	あり	いいえ	なし
霧	huggingface-llm-mistral-7b	はい	はい	あり
	huggingface-llm-mistral-7b-instruct	はい	はい	あり
	huggingface-llm-mistral-7b-openorca-gptq	はい	はい	はい
	huggingface-llm-amazon-mistrallite	はい	はい	あり
	huggingface-llm-thebloke-mistral-7b-openorca-awq	はい	はい	あり
	huggingface-llm-huggingfaceh4-ミスタル-7b-sft-beta	はい	はい	あり
	huggingface-llm-huggingfaceh4-ミスタル-7b-sft-alpha	はい	はい	あり
	huggingface-llm-teknium-openhermes-2-ミスタル-7b	はい	はい	あり
	huggingface-llm-nousresearch-yarn-ミスラル-7b-128k	はい	はい	あり
	huggingface-llm-dolphin-2-2-1-ミスラル-7b	はい	はい	あり
	huggingface-llm-cultrix-mistraltrix-v1	はい	はい	あり
混合	huggingface-llm-mixtral-8x7b-instruct	はい	はい	あり
	huggingface-llm-mixtral-8x7b-instruct-gptq	はい	はい	あり
	huggingface-llm-mixtral-8x7b	はい	はい	あり
	huggingface-llm-mistralai-mixtral-8x22B-instruct-v0-1	はい	はい	あり
	huggingface-llm-dolphin-2-5-ミックスラル-8x7b	はい	はい	あり
	huggingface-llm-dolphin-2-7-ミックスラル-8x7b	はい	はい	あり
Phi	huggingface-llm-phi-2	あり

最適化済み JumpStart モデル

以下は、事前に最適化された設定を持つ JumpStart モデルです。

HuggingFace

Mixtral 8x7B 命令
混合 8x7B
ミスラル 7B 指示
霧状 7B

プリコンパイル済み JumpStart モデル

一部のモデルと設定では、は特定の Inferentia インスタンスと AWS Trainium AWS インスタンス用に事前にコンパイルされたモデル SageMaker を提供します。これらのために、コンパイルジョブまたは最適化ジョブを作成し、デプロイインスタンスタイプとして ml.inf2.48xlarge または ml.trn1.32xlarge を選択すると、はコンパイルされたアーティファクト SageMaker を取得します。ジョブはコンパイル済みのモデルを使用しているため、コンパイルを最初から実行しなくてもすぐに完了します。

以下は、にプリコンパイルされた JumpStart モデル SageMaker があるモデルです。

HuggingFace

霧状 7B

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

モデルのデプロイを開始する

を使用したモデルの作成 ModelBuilder

Amazon でモデル推論を最適化する SageMaker

最適化手法

投機的デコード

量子化

コンパイル

最適化済みモデルをデプロイする

最適化済みモデルをデプロイするには

推論最適化ジョブを作成する

推論最適化ジョブのインスタンス料金

最適化ジョブの作成を開始するには

最適化設定を設定するには

詳細オプション

例で SageMaker モデルを定義するコード `ModelBuilder`

例量子化で最適化するコード

例投機的デコードで最適化するコード

例コンパイルで最適化するコード

最適化ジョブの結果を表示する

最適化ジョブの概要テーブルを表示するには

ジョブの詳細を表示するには

最適化モデルのパフォーマンスを評価する

開始する前に

パフォーマンス評価を作成する

推論パフォーマンス評価のメトリクスリファレンス

レイテンシーメトリクス

スループットメトリクス

料金メトリクス

サポートされているモデルのリファレンス

最適化済み JumpStart モデル

Meta

HuggingFace

プリコンパイル済み JumpStart モデル

Meta

HuggingFace

Amazon でモデル推論を最適化する SageMaker

最適化手法

投機的デコード

量子化

コンパイル

最適化済みモデルをデプロイする

最適化済みモデルをデプロイするには

推論最適化ジョブを作成する

推論最適化ジョブのインスタンス料金

最適化ジョブの作成を開始するには

最適化設定を設定するには

詳細オプション

例 で SageMaker モデルを定義するコード ModelBuilder

例 量子化で最適化するコード

例 投機的デコードで最適化するコード

例 コンパイルで最適化するコード

最適化ジョブの結果を表示する

最適化ジョブの概要テーブルを表示するには

ジョブの詳細を表示するには

最適化モデルのパフォーマンスを評価する

開始する前に

パフォーマンス評価を作成する

推論パフォーマンス評価のメトリクスリファレンス

レイテンシーメトリクス

スループットメトリクス

料金メトリクス

サポートされているモデルのリファレンス

最適化済み JumpStart モデル

Meta

HuggingFace

プリコンパイル済み JumpStart モデル

Meta

HuggingFace

例で SageMaker モデルを定義するコード `ModelBuilder`

例量子化で最適化するコード

例投機的デコードで最適化するコード

例コンパイルで最適化するコード