トラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トラブルシューティング

重要

2023 年 11 月 30 日以降、従来の Amazon SageMaker Studio のエクスペリエンスは Amazon SageMaker Studio Classic と名前が変更されました。以下のセクションは、更新後の Studio のエクスペリエンスに沿った内容になっています。Studio Classic アプリケーションを使用する場合は、「Amazon SageMaker Studio Classic」を参照してください。

重要

Amazon SageMaker Studio または Amazon SageMaker Studio Classic に Amazon SageMaker リソースの作成を許可するカスタム IAM ポリシーでは、これらのリソースにタグを追加するアクセス許可も付与する必要があります。Studio と Studio Classic は、作成したリソースに自動的にタグ付けするため、リソースにタグを追加するアクセス許可が必要になります。IAM ポリシーで Studio と Studio Classic によるリソースの作成が許可されていても、タグ付けが許可されていない場合は、リソースを作成しようとしたときに「AccessDenied」エラーが発生する可能性があります。詳細については、「SageMaker AI リソースにタグ付けするためのアクセス許可を提供する」を参照してください。

SageMaker リソースを作成するためのアクセス許可を付与する AWS Amazon SageMaker AI の マネージドポリシー には、それらのリソースの作成中にタグを追加するためのアクセス許可もあらかじめ含まれています。

このセクションでは、Amazon SageMaker Studio の一般的なトラブルシューティング方法について説明します。

復旧モード

復旧モードでは、設定の問題により通常の起動が妨げられたときに Studio アプリケーションにアクセスできます。これは、問題の診断と修正に役立つ重要な機能を備えたシンプルな環境を提供します。

アプリケーションの起動に失敗すると、次のいずれかの設定問題に対処するための復旧モードへのアクセスに関するエラーメッセージが表示されることがあります。

  • ファイルが破損しています.condarc

    .condarc ファイルのトラブルシューティングについては、Conda ユーザーガイドトラブルシューティングページを参照してください。

  • 使用可能なストレージボリュームが不十分です。

    アプリケーションで使用可能な Amazon EBS スペースストレージを増やすか、リカバリモードに移行して不要なデータを削除できます。

    Amazon EBS ボリュームサイズを増やす方法については、「Service Quotas デベロッパーガイド」の「クォータサイズのリクエスト」を参照してください。 Service Quotas

復旧モードの場合:

  • ホームディレクトリは、通常の起動とは異なります。このディレクトリは一時的なものであり、標準のホームディレクトリで破損した設定が復旧モードのオペレーションに影響を与えないようにします。コマンド を使用して、標準のホームディレクトリに移動できますcd /home/sagemaker-user

    • 標準モード: /home/sagemaker-user

    • 復旧モード: /tmp/sagemaker-recovery-mode-home

  • conda 環境は、必須パッケージのみを含む最小限のベース conda 環境を使用します。簡素化された conda セットアップは、環境関連の問題を分離し、トラブルシューティングのための基本的な機能を提供します。

Studio UI または を使用して AWS CLI 、復旧モードでアプリケーションにアクセスできます。

以下に、リカバリモードでアプリケーションにアクセスする手順を示します。

  1. まだ起動していない場合は、「」の手順に従って Studio UI を起動しますAmazon SageMaker AI コンソールから起動する

  2. 左側のナビゲーションメニューの アプリケーション で、アプリケーションを選択します。

  3. 設定の問題が発生しているスペースを選択します。

    次の手順は、前述の 1 つ以上の設定の問題がある場合に使用できます。この場合、警告バナーと復旧モードメッセージが表示されます。

    注記

    警告バナーには、問題に対する推奨される解決策が必要です。先に進む前に、この点に注意してください。

  4. Run space (Recovery モード) を選択します。

  5. 復旧モードでアプリケーションにアクセスするには、アプリケーションを開く (復旧モード) を選択します。

リカバリモードでアプリケーションにアクセスするには、create-app AWS CLI コマンド--recovery-modeに を追加する必要があります。リカバリモードでアプリケーションにアクセスする方法の例を次に示します。

次の例では、 が必要です。

Access Code Editor application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type CodeEditor \ --domain-id domain-id \ --space-name space-name \ --recovery-mode
Access JupyterLab application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type JupyterLab \ --domain-id domain-id \ --space-name space-name \ --recovery-mode

Code Editor または JupyterLab アプリケーションを削除できません

この問題は、ユーザーが Studio でのみ利用可能な Amazon SageMaker Studio からアプリケーションを作成し、デフォルトのエクスペリエンスを Studio Classic に戻す場合に発生します。そのため、ユーザーは Studio UI にアクセスできないため、Code-OSS、Visual Studio Code - Open Source、または JupyterLab に基づいて Code Editor のアプリケーションを削除することはできません。

この問題を解決するには、 AWS Command Line Interface () を使用してアプリケーションを手動で削除できるように、管理者に通知しますAWS CLI。

EC2InsufficientCapacityError

この問題は、スペースを実行しようとしたときに、現在リクエストを満たすのに十分なオンデマンド容量 AWS がない場合に発生します。

この問題を解決するには、次の手順に従います。

  • 数分間待ってからリクエストを再度送信してください。容量は頻繁に変化します。

  • スペースのインスタンスサイズまたはタイプを変えて実行します。

注記

容量は複数の Availability Zones で使用されます。使用可能な容量を最大化するために、すべての Availability Zones にサブネットを設定することをお勧めします。Studio は、ドメインで使用できるすべての Availability Zones で実行を試みます。

使用可能なインスタンスタイプはリージョンによって異なります。リージョンごとにサポートされているインスタンスタイプのリストについては、Amazon SageMakerの料金」を参照してください)。

次の表に、インスタンスファミリーと推奨される代替方法を示します。

インスタンスファミリー CPU タイプ vCPUs メモリ (GiB) GPU タイプ GPU GPU メモリ (GiB) 推奨される代替方法
G4dn 第 2 世代インテル Xeon スケーラブルプロセッサ 4~96 16~384 NVIDIA T4 Tensor コア 1~8 GPU あたり 16 G6
G5 第 2 世代 AMD EPYC プロセッサ 4~192 16~768 NVIDIA A10G Tensor コア 1~8 GPU あたり 24 G6e
G6 第 3 世代 AMD EPYC プロセッサ 4~192 16~768 NVIDIA L4 Tensor コア 1~8 GPU あたり 24 G4dn
G6e 第 3 世代 AMD EPYC プロセッサ 4~192 32~1536 NVIDIA L40S Tensor コア 1~8 GPU あたり 48 G5, P4
P3 Intel Xeon スケーラブルプロセッサ 8~96 61~768 NVIDIA Tesla V100 1~8 GPU あたり 16 (P3dn の場合は GPU あたり 32) G6e, P4
P4 第 2 世代インテル Xeon スケーラブルプロセッサ 96 1152 NVIDIA A100 Tensor コア 8 320 (P4de の場合は 640) G6e
P5 第 3 世代 AMD EPYC プロセッサ 192 2000 NVIDIA H100 Tensor コア 8 640 P4de

制限が不十分 (クォータの引き上げが必要)

この問題は、スペースの実行中に次のエラーメッセージが表示される場合に発生します。

Error when creating application for space: ... : The account-level service limit is X Apps, with current utilization Y Apps and a request delta of 1 Apps. Please use Service Quotas to request an increase for this quota.

各インスタンスタイプで実行できるインスタンスの数には、デフォルトの制限があります AWS リージョン。このエラーは、その制限に達したことを意味します。

この問題を解決するには、スペースを起動 AWS リージョン する のインスタンス制限の引き上げをリクエストします。詳細については、「Requesting a quota increase」(クォータ引き上げのリクエスト) を参照してください。

カスタムイメージのロードに失敗しました

この問題は、ドメインからイメージをデタッチする前に SageMaker AI イメージが削除された場合に発生します。これは、ドメインの環境タブを表示すると表示されます。

この問題を解決するには、削除したイメージと同じ名前の一時的な新しいイメージを作成し、そのイメージをデタッチしてから、一時イメージを削除する必要があります。ウォークスルーには、次の手順を使用します。

  1. まだ起動していない場合は、SageMaker AI コンソールを起動します。

  2. 左側のナビゲーションメニューの管理者設定で、ドメインを選択します。

  3. ドメインを選択します。

  4. 環境タブを選択します。このページにエラーメッセージが表示されます。

  5. イメージ ARN からイメージ名をコピーします。

  6. 左側のナビゲーションメニューの管理者設定で、イメージを選択します。

  7. [イメージを作成] を選択してください。

  8. 手順のステップに従いますが、イメージ名が上記のイメージ名と同じであることを確認します。

    Amazon ECR ディレクトリにイメージがない場合は、「」の手順を参照してくださいカスタムイメージを作成して Amazon ECR にプッシュする

  9. SageMaker AI イメージを作成したら、ドメイン環境タブに戻ります。ドメインにアタッチされたイメージが表示されます。

  10. イメージを選択し、デタッチを選択します。

  11. 手順に従って、一時的な SageMaker AI イメージをデタッチおよび削除します。