翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
コンソール上の AWS Glue ジョブ実行のステータス
AWS Glue 抽出、変換、ロード (ETL) ジョブのステータスは、実行中または停止後に表示できます。AWS Glue コンソールを使用してステータスを表示できます。ジョブ実行のステータスの詳細については、「AWS Glue ジョブ実行ステータス」を参照してください。
ジョブモニタリングダッシュボードにアクセスする
ジョブモニタリングダッシュボードにアクセスするには、ジョブ ETL の下のAWS Glueナビゲーションペインにあるジョブ実行モニタリングリンクを選択します。
ジョブモニタリングダッシュボードの概要
ジョブモニタリングダッシュボードでは、ジョブの実行に関する全体的な概要と、ステータスが [Running] (実行中)、[Canceled] (キャンセル済み)、[Success] (成功)、または [Failed] (失敗) となっているジョブの合計を表示します。追加のタイルには、全体的なジョブ実行成功率、ジョブの推定DPU使用量、ジョブタイプ、ワーカータイプ、日別のジョブステータス数の内訳が表示されます。
タイル内のグラフはインタラクティブです。グラフ内の任意のブロックを選択して、ページの下部にある [Job runs] (ジョブの実行) テーブルで、それらのジョブのみを表示するフィルターを実行します。
[Date range] (日付範囲) セレクタを使用して、このページに表示される情報の日付範囲を変更できます。日付範囲を変更すると、現在の日付より前の指定した日数の値を表示するよう情報のタイルが調整されます。また、[Date range] (日付範囲) セレクタから [Custom] (カスタム) を選択して、特定の日付範囲を使用することもできます。
ジョブの実行ビュー
注記
ジョブ実行履歴には、ワークフローとジョブ実行のために 90 日間アクセスできます。
[Job runs] (ジョブの実行) リソースリストには、指定した日付範囲とフィルターのジョブが表示されます。
ステータス、ワーカータイプ、ジョブタイプ、ジョブ名などの追加の基準でジョブをフィルタリングできます。テーブルの上部にあるフィルターボックスに、フィルターとして使用するテキストを入力できます。テキストを入力すると、一致するテキストを含む行でテーブルの結果が更新されます。
ジョブモニタリングダッシュボードのグラフから要素を選択すると、ジョブのサブセットを表示できます。例えば、[Job runs summary] (ジョブの実行のサマリー) タイルで実行中のジョブの数を選択する場合、[Job runs] (ジョブの実行) リストには、その時点で Running
のステータスにあるジョブのみが表示されます。[Worker type breakdown] (ワーカータイプの内訳) の棒グラフでいずれかのバーを選択する場合、ワーカータイプとステータスが一致するジョブの実行のみが [Job runs] (ジョブの実行) リストに表示されます。
[Job runs] (ジョブの実行) リソースリストには、ジョブの実行の詳細が表示されます。列見出しを選択して、テーブル内の行を並べ替えることができます。テーブルには次の情報が含まれます。
プロパティ | 説明 |
---|---|
ジョブ名 | ジョブの名前。 |
タイプ |
ジョブの環境のタイプ
|
開始時間 |
このジョブ実行が開始された日付と時刻。 |
終了時間 |
このジョブ実行が完了した日付と時刻。 |
実行ステータス |
現在のジョブ実行の状態。値は次のようになります。
|
実行時間 | ジョブの実行でリソースを消費した時間。 |
容量 |
このジョブ実行に割り当てられたAWS Glueデータ処理ユニット (DPUs) の数。キャパシティプランニングの詳細については、「 AWS Glueデベロッパーガイド」のDPU「キャパシティプランニングのモニタリング」を参照してください。 |
ワーカータイプ |
ジョブの実行時に割り当てられた事前定義済みのワーカーのタイプ。値は
|
DPU 時間 |
ジョブ実行にDPUs使用された推定数。DPU は、処理能力の相対的な尺度です。DPUs は、ジョブの実行コストを決定するために使用されます。詳細については、AWS Glue 料金表ページ |
リストから任意のジョブの実行を選択し、追加の情報を表示できます。ジョブの実行を選択して、次のいずれかを実行します。
-
[Actions] (アクション) メニューから [View job] (ジョブの表示) オプションを選択して、ビジュアルエディタでジョブを表示します。
-
[Actions] (アクション) メニューから [Stop run] (実行の停止) オプションを使用して、現在行われているジョブ実行を停止します。
-
CloudWatch ログの表示 ボタンを選択すると、そのジョブのジョブ実行ログが表示されます。
-
[詳細を表示] を選択して、ジョブの実行の詳細ページを表示します。
ジョブの実行ログの表示
ジョブのログは、さまざまな方法で表示できます。
-
モニタリングページの ジョブ実行 テーブルで、ジョブ実行を選択し、ログの表示 CloudWatch を選択します。
-
ビジュアルジョブエディタの、ジョブの [Runs] (実行) タブで、ハイパーリンクを選択してログを表示できます。
-
Logs (ログ) – ジョブの実行で継続的なログ記録が有効であるときに書き込まれる Apache Spark ジョブのログへのリンクです。このリンクを選択すると、 Amazon CloudWatch ロググループの
/aws-glue/jobs/logs-v2
ログに移動します。デフォルトでは、ログには、役に立たない Apache Hadoop YARNハートビートと Apache Spark ドライバーまたはエグゼキュターログメッセージは含まれません。継続的なログ記録の詳細については、AWS Glue デベロッパーガイドの「Continuous Logging for AWS Glue Jobs」を参照してください。 -
Error logs (エラーログ) – このジョブの実行で
stderr
に書き込まれるログへのリンクです。このリンクを選択すると、/aws-glue/jobs/error
ロググループ 内の Amazon CloudWatch ログに移動します。これらのログを使用して、ジョブの実行中に発生したエラーに関する詳細を表示できます。 -
Output logs (出力ログ) – このジョブの実行で
stdout
に書き込まれるログへのリンクです。このリンクを選択すると、/aws-glue/jobs/output
ロググループ 内の Amazon CloudWatch ログに移動します。これらのログを使用して、AWS Glue Data Catalog で作成されたテーブルに関する詳細と、発生したエラーをすべて確認することができます。
-
ジョブの実行の詳細を表示する
[Monitoring] (モニタリング) ページの [Job runs] (ジョブの実行) リストでジョブを選択し、[View run details] (実行の詳細を表示する) をクリックして、ジョブの実行に関する詳細情報を表示できます。
ジョブの実行の詳細ページには、次の情報が表示されます。
プロパティ | 説明 |
---|---|
ジョブ名 | ジョブの名前。 |
実行ステータス |
現在のジョブ実行の状態。値は次のようになります。
|
Glue バージョン | ジョブ実行に使用される AWS Glue バージョン |
最近の試行 | ジョブ実行時の自動再試行回数 |
開始時間 |
このジョブ実行が開始された日付と時刻。 |
終了時間 |
このジョブ実行が完了した日付と時刻。 |
起動時間 |
ジョブ実行の準備にかかった時間 |
実行時間 |
ジョブスクリプトの実行にかかった時間 |
トリガー名 |
ジョブに関連付けられているトリガーの名前 |
最終更新日 |
ジョブが最後に変更された日付 |
セキュリティ設定 |
Amazon S3 暗号化、暗号化、ジョブブックマーク CloudWatch の暗号化設定を含む、ジョブのセキュリティ設定。 |
タイムアウト | ジョブ実行のタイムアウトのしきい値 |
割り当てられた容量 |
このジョブ実行に割り当てられたAWS Glueデータ処理ユニット (DPUs) の数。キャパシティプランニングの詳細については、「 AWS Glueデベロッパーガイド」のDPU「キャパシティプランニングのモニタリング」を参照してください。 |
最大容量 |
ジョブの実行に使用可能な最大の容量。 |
ワーカー数 | ジョブ実行に使用されるワーカーの数 |
ワーカータイプ |
ジョブの実行に割り当てられる定義済みのワーカータイプ。値は、
|
ログ | 継続的なログ記録のためのジョブログへのリンク (/aws-glue/jobs/logs-v2 )。 |
出力ログ | ジョブの出力ログファイルへのリンク (/aws-glue/jobs/output )。 |
エラーログ | ジョブのエラーログファイルへのリンク (/aws-glue/jobs/error )。 |
次の追加項目も表示できます。これらは、最近のジョブ実行の情報を表示する際に表示できます。詳細については、「最近のジョブの実行の情報を表示する」を参照してください。
[入力引数]
連続ログ
[メトリクス] – 基本的なメトリクスのビジュアライゼーションを確認できます。含まれるメトリクスの詳細については、「Spark ジョブ実行の Amazon CloudWatch メトリクスの表示」を参照してください。
[Spark UI] – Spark UI でジョブの Spark ログを視覚化できます。Spark Web UI の使用の詳細については、「Apache Spark ウェブ UI を使用したジョブのモニタリング」を参照してください。AWS Glue ジョブ用の Apache Spark ウェブ UI の有効化 のステップに従って、この機能を有効にします。
Spark ジョブ実行の Amazon CloudWatch メトリクスの表示
ジョブ実行の詳細ページで、実行の詳細セクションの下にあるジョブメトリクスを表示できます。 は、ジョブ実行 Amazon CloudWatch ごとにジョブメトリクスを AWS Glue Studioに送信します。
AWS Glue は 30 秒 Amazon CloudWatch ごとにメトリクスを に報告します。 AWS Glue メトリクスは、以前に報告された値からデルタ値を表示します。必要に応じて、メトリクスのダッシュボードにより 30 秒の値が集計 (合計) され、直近 1 分間分の値を取得できます。ただし、 が に AWS Glue 渡す Apache Spark メトリクス Amazon CloudWatch は、通常、報告時の現在の状態を表す絶対値です。
注記
Amazon CloudWatch、 にアクセスするようにアカウントを設定する必要があります。
メトリクスには、次のようなジョブの実行に関する情報が表示されます。
-
ETL データ移動 — Amazon S3 との間で読み書きされたバイト数。
-
Memory Profile: Heap used – Java 仮想マシン (JVM) ヒープで使用されるメモリバイト数。
-
メモリプロファイル: ヒープ使用量 – JVMヒープで使用されるメモリの割合 (スケール: 0~1)。パーセンテージで示されます。
-
CPU 負荷 — 使用されたCPUシステム負荷の割合 (スケール: 0~1)。パーセンテージで示されます。
Ray ジョブ実行の Amazon CloudWatch メトリクスの表示
ジョブ実行の詳細ページで、実行の詳細セクションの下にあるジョブメトリクスを表示できます。 は、ジョブ実行 Amazon CloudWatch ごとにジョブメトリクスを AWS Glue Studioに送信します。
AWS Glue は 30 秒 Amazon CloudWatch ごとにメトリクスを に報告します。 AWS Glue メトリクスは、以前に報告された値からデルタ値を表示します。必要に応じて、メトリクスのダッシュボードにより 30 秒の値が集計 (合計) され、直近 1 分間分の値を取得できます。ただし、 が に AWS Glue 渡す Apache Spark メトリクス Amazon CloudWatch は、通常、報告時の現在の状態を表す絶対値です。
注記
「」の説明に従って Amazon CloudWatch、 にアクセスするようにアカウントを設定する必要があります。
Ray ジョブでは、次の集約メトリクスグラフを表示できます。これらを使用すると、クラスターとタスクのプロファイルを作成し、各ノードの詳細情報にアクセスできます。これらのグラフをバックアップする時系列データは、詳細な分析 CloudWatch のために で利用できます。
- タスクプロファイル: タスクの状態
-
システム内の Ray タスクの数を表示します。各タスクのライフサイクルには、独自の時系列が割り当てられます。
- タスクプロファイル: タスク名
-
システム内の Ray タスクの数を表示します。保留中のタスクとアクティブなタスクのみが表示されます。タスクのタイプ (名前別) ごとに独自の時系列が割り当てられます。
- クラスタープロファイル: CPUs 使用中
-
使用されているCPUコアの数を表示します。ノードごとに独自の時系列が割り当てられます。ノードは IP アドレスで識別されます。IP アドレスは一時的なものであり、識別にのみ使用されます。
- クラスタープロファイル: オブジェクトストアのメモリ使用量
-
Ray オブジェクトキャッシュによるメモリ使用量を表示します。各メモリの場所 (物理メモリ、ディスクへのキャッシュ、Amazon S3 への流出) には、独自の時系列が割り当てられます。オブジェクトストアは、クラスター内に存在するすべてのノードのデータストレージを管理します。詳細については、Ray ドキュメントの「Objects
」を参照してください。 - クラスタープロファイル: ノード数
-
クラスターにプロビジョニングされたノード数を表示します。
- ノードの詳細: CPUを使用する
-
各ノードのCPU使用率をパーセンテージで表示します。各シリーズには、ノード上のすべてのコアのCPU使用率が集計されて表示されます。
- ノードの詳細: メモリ使用量
-
各ノードのメモリ使用量を GB 単位で表示します。各シリーズは、Ray タスクと Plasma ストアプロセスを含む、ノード上のすべてのプロセス間で集約されたメモリを表示します。これには、ディスクに保存されたオブジェクトや Amazon S3 に流出したオブジェクトは反映されません。
- ノードの詳細: ディスク使用量
-
各ノードのディスク使用量を GB 単位で表示します。
- ノードの詳細: ディスク I/O 速度
-
各ノードのディスク I/O を KB/秒単位で表示します。
- ノードの詳細: ネットワーク I/O スループット
-
各ノードのネットワーク I/O を KB/秒単位で表示します。
- ノードの詳細: Ray コンポーネントによるCPU使用
-
コアの使用量を分数CPUで表示します。各ノードの Ray コンポーネントごとに独自の時系列が割り当てられます。
- ノードの詳細: Ray コンポーネントによるメモリ使用量
-
メモリ使用量を GiB 単位で表示します。各ノードの Ray コンポーネントごとに独自の時系列が割り当てられます。