GPU ドライバーのアップグレード中の中断を最小限に抑えるためのベストプラクティス

フォーカスモード

GPU ドライバーのアップグレード中の中断を最小限に抑えるためのベストプラクティス - Amazon SageMaker AI

現在のバージョンとサポートされているインスタンスファミリー GPU 機能に関連するモデルコンテナのトラブルシューティングドライバのバージョンが一致しない場合のベストプラクティス

SageMaker AI Model Deployment は、リアルタイム、バッチ、非同期推論オプション用に ML インスタンスの GPU ドライバーを経時的にアップグレードし、ドライバープロバイダーからの改善点へのアクセスを顧客に提供します。以下に、各推論オプションでサポートされている GPU バージョンを示します。ドライバーのバージョンが異なると、モデルが GPU とやり取りする方法が変わる可能性があります。以下は、アプリケーションがさまざまなドライバーバージョンでどのように動作するかを理解するのに役立つ戦略の一部です。

現在のバージョンとサポートされているインスタンスファミリー

Amazon SageMaker AI Inference は、以下のドライバーとインスタンスファミリーをサポートしています。

サービス	GPU	ドライバーバージョン	CUDA バージョン	インスタンスのタイプ
リアルタイム	NVIDIA	470	CUDA 11.4	ml.p2.、ml.p3.、ml.p4d.、ml.p4de.、ml.g4dn.、ml.g5.
		535	CUDA 12.2	ml.p5.、ml.g6.
		550	CUDA 12.4	ml.p5e.、ml.p5en.
非同期推論	NVIDIA	470	CUDA 11.4	ml.p2.、ml.p3.、ml.p4d.、ml.p4de.、ml.g4dn.、ml.g5
		470	CUDA 12.2	ml.p5.、ml.g6.
		550	CUDA 12.4	ml.p5e.、ml.p5en.
バッチ	NVIDIA	470	CUDA 11.4	ml.p2.、ml.p3.、ml.p4d.、ml.p4de.、ml.g4dn.、ml.g5

GPU 機能に関連するモデルコンテナのトラブルシューティング

GPU ワークロードを実行中に問題が発生した場合は、次のガイダンスを参照してください。

Docker コンテナ内から nvidia-smi (NVIDIA システム管理インターフェイス) コマンドを実行します。NVIDIA システム管理インターフェイスにより GPU 検出エラーまたは NVIDIA 初期化エラーが検出されると、次のエラーメッセージが返されます。


Failed to initialize NVML: Driver/library version mismatch

ユースケースに応じて、以下のベストプラクティスに従って障害またはエラーを解決します。

BYO（Bring Your Own）モデルのコンテナの場合ドロップダウンに表示されるベストプラクティスの推奨事項に従います。
CUDA 互換性レイヤーを使用する場合ドロップダウンに表示されるベストプラクティスの推奨事項に従います。

詳細については、NVIDIA Web サイトの NVIDIA システム管理インターフェイスのページを参照してください。

GPU カードの検出エラーまたは NVIDIA 初期化エラー


Failed to initialize NVML: Driver/library version mismatch

ユースケースに応じて、以下のベストプラクティスに従って障害またはエラーを解決します。

BYO（Bring Your Own）モデルのコンテナの場合ドロップダウンに表示されるベストプラクティスの推奨事項に従います。
CUDA 互換性レイヤーを使用する場合ドロップダウンに表示されるベストプラクティスの推奨事項に従います。

詳細については、NVIDIA Web サイトの NVIDIA システム管理インターフェイスのページを参照してください。

GPU インスタンスで使用されている NVIDIA ドライバーのバージョンが Docker コンテナの CUDA バージョンと互換性がない場合、エンドポイントのデプロイは失敗し、次のエラーメッセージが表示されます。


 Failure reason CannotStartContainerError. Please ensure the model container for variant <variant_name> starts correctly when invoked with 'docker run <image> serve'

ユースケースに応じて、以下のベストプラクティスに従って障害またはエラーを解決します。

コンテナが依存しているドライバーが ML GPU インスタンスのバージョンよりも新しいドロップダウンに表示されるベストプラクティスの推奨事項に従います。
CUDA 互換性レイヤーを使用する場合ドロップダウンに表示されるベストプラクティスの推奨事項に従います。

CannotStartContainerError


 Failure reason CannotStartContainerError. Please ensure the model container for variant <variant_name> starts correctly when invoked with 'docker run <image> serve'

ユースケースに応じて、以下のベストプラクティスに従って障害またはエラーを解決します。

コンテナが依存しているドライバーが ML GPU インスタンスのバージョンよりも新しいドロップダウンに表示されるベストプラクティスの推奨事項に従います。
CUDA 互換性レイヤーを使用する場合ドロップダウンに表示されるベストプラクティスの推奨事項に従います。

ドライバのバージョンが一致しない場合のベストプラクティス

以下に、GPU ドライバーの更新方法に関する情報を示します。

アクションは必要ありません。NVIDIA には下位互換性があります。

コンテナが依存しているドライバーが ML GPU インスタンスのバージョンよりも古い

アクションは必要ありません。NVIDIA には下位互換性があります。

マイナーバージョンアップによる違いであれば、何もする必要はありません。NVIDIA はマイナーバージョンでの上位互換性を備えています。

メジャーバージョンアップによる違いであれば、CUDA Compatibility Package をインストールする必要があります。NVIDIA ドキュメントの「CUDA Compatibility Package」を参照してください。

重要

CUDA Compatibility Package は下位互換性を備えていないため、インスタンスのドライバーバージョンが CUDA Compatibility Package バージョンよりも新しい場合は、無効にする必要があります。

コンテナが依存しているドライバーが ML GPU インスタンスのバージョンよりも新しい

マイナーバージョンアップによる違いであれば、何もする必要はありません。NVIDIA はマイナーバージョンでの上位互換性を備えています。

重要

ホスト上の NVIDIA ドライバーバージョンと競合する可能性のある NVIDIA ドライバーパッケージがイメージにバンドルされていないことを確認してください。

BYO（Bring Your Own）モデルのコンテナの場合

プラットフォームの Nvidia ドライバーバージョンが、モデルコンテナにインストールされている CUDA Compatibility Package バージョンをサポートしているかどうかを確認するには、CUDA のドキュメントを参照してください。プラットフォームの Nvidia ドライバーバージョンが CUDA Compatibility Package をサポートしていない場合は、CUDA Compatibility Package を無効化するか、モデルコンテナイメージから CUDA Compatibility Package 削除します。CUDA Compatibility libs のバージョンが最新の Nvidia ドライバーバージョンでサポートされている場合は、以下のコードスニペットをコンテナ起動シェルスクリプト (ENTRYPOINT スクリプト) に追加して、将来の互換性を保障するために、検出された Nvidia ドライバーバージョンに基づいて CUDA Compatibility Package を有効にすることをお勧めします。

このスクリプトは、モデルコンテナのデプロイされたホストで検出された Nvidia ドライバーバージョンに基づいて、CUDA Compatibility Package の使用を動的に切り替える方法を示しています。SageMaker が新しいバージョンの Nvidia ドライバーをリリースする際、CUDA アプリケーションが新しいドライバーでネイティブにサポートされていれば、インストールされている CUDA Compatibility Package が自動的にオフになります。


#!/bin/bash

verlt() {
    [ "$1" = "$2" ] && return 1 || [ "$1" = "$(echo -e "$1\n$2" | sort -V | head -n1)" ]
}

if [ -f /usr/local/cuda/compat/libcuda.so.1 ]; then
    CUDA_COMPAT_MAX_DRIVER_VERSION=$(readlink /usr/local/cuda/compat/libcuda.so.1 | cut -d'.' -f 3-)
    echo "CUDA compat package should be installed for NVIDIA driver smaller than ${CUDA_COMPAT_MAX_DRIVER_VERSION}"
    NVIDIA_DRIVER_VERSION=$(sed -n 's/^NVRM.*Kernel Module *\([0-9.]*\).*$/\1/p' /proc/driver/nvidia/version 2>/dev/null || true)
    echo "Current installed NVIDIA driver version is ${NVIDIA_DRIVER_VERSION}"
    if verlt $NVIDIA_DRIVER_VERSION $CUDA_COMPAT_MAX_DRIVER_VERSION; then
        echo "Adding CUDA compat to LD_LIBRARY_PATH"
        export LD_LIBRARY_PATH=/usr/local/cuda/compat:$LD_LIBRARY_PATH
        echo $LD_LIBRARY_PATH
    else
        echo "Skipping CUDA compat setup as newer NVIDIA driver is installed"
    fi
else
    echo "Skipping CUDA compat setup as package not found"
fi

CUDA 互換性レイヤーを使用する場合


#!/bin/bash

verlt() {
    [ "$1" = "$2" ] && return 1 || [ "$1" = "$(echo -e "$1\n$2" | sort -V | head -n1)" ]
}

if [ -f /usr/local/cuda/compat/libcuda.so.1 ]; then
    CUDA_COMPAT_MAX_DRIVER_VERSION=$(readlink /usr/local/cuda/compat/libcuda.so.1 | cut -d'.' -f 3-)
    echo "CUDA compat package should be installed for NVIDIA driver smaller than ${CUDA_COMPAT_MAX_DRIVER_VERSION}"
    NVIDIA_DRIVER_VERSION=$(sed -n 's/^NVRM.*Kernel Module *\([0-9.]*\).*$/\1/p' /proc/driver/nvidia/version 2>/dev/null || true)
    echo "Current installed NVIDIA driver version is ${NVIDIA_DRIVER_VERSION}"
    if verlt $NVIDIA_DRIVER_VERSION $CUDA_COMPAT_MAX_DRIVER_VERSION; then
        echo "Adding CUDA compat to LD_LIBRARY_PATH"
        export LD_LIBRARY_PATH=/usr/local/cuda/compat:$LD_LIBRARY_PATH
        echo $LD_LIBRARY_PATH
    else
        echo "Skipping CUDA compat setup as newer NVIDIA driver is installed"
    fi
else
    echo "Skipping CUDA compat setup as package not found"
fi

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

推論コスト最適化のベストプラクティス

エンドポイントセキュリティのベストプラクティス

次のトピック

エンドポイントセキュリティのベストプラクティス

前のトピック:

推論コスト最適化のベストプラクティス

ヘルプが必要ですか?

このページの内容

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません

GPU ドライバーのアップグレード中の中断を最小限に抑えるためのベストプラクティス

現在のバージョンとサポートされているインスタンスファミリー

GPU 機能に関連するモデルコンテナのトラブルシューティング

GPU カードの検出エラーまたは NVIDIA 初期化エラー

CannotStartContainerError

ドライバのバージョンが一致しない場合のベストプラクティス

コンテナが依存しているドライバーが ML GPU インスタンスのバージョンよりも古い

重要

コンテナが依存しているドライバーが ML GPU インスタンスのバージョンよりも新しい

重要

BYO（Bring Your Own）モデルのコンテナの場合

CUDA 互換性レイヤーを使用する場合

次のトピック

前のトピック:

ヘルプが必要ですか?

このページの内容

Related resources

このページは役に立ちましたか?

Related resources