AWS Glue
開発者ガイド

AWS Glue で使用される特別なパラメータ

AWS Glue に認識され使用される引数名は多くあります。それらを使用してジョブと JobRuns のスクリプト環境をセットアップできます。

  • --job-language – スクリプトプログラミング言語。これは scala または python であることが必要です。このパラメータが存在しない場合、デフォルトで python が使用されます。

  • --class – Scala スクリプトのエントリポイントとなる Scala クラス。これは、--job-languagescala に設定した場合にのみ適用されます。

  • --scriptLocation – ETL スクリプトが配置されている S3 の場所 (s3://path/to/my/script.py のような形式)。これは、JobCommand オブジェクトで設定されているスクリプトの場所を上書きします。

  • --extra-py-files – スクリプトを実行する前に AWS Glue が Python パスに追加する、追加の Python モジュールへの S3 パス。複数の値はコンマ (,) で区切られた完全なパスでなければなりません。ディレクトリパスではなく、個別のファイルのみがサポートされています。純粋な Python モジュールだけが現在動作することに注意してください。C または他の言語で書かれた拡張モジュールはサポートされていません。

  • --extra-jars – スクリプトを実行する前に AWS Glue が Java クラスパスに追加する、追加 Java .jar ファイルへの S3 パス。複数の値はコンマ (,) で区切られた完全なパスでなければなりません。

  • --extra-files – スクリプトを実行する前に、AWS Glue がスクリプトの作業ディレクトリにコピーする設定ファイルなどの追加ファイルへの S3 パス。複数の値はコンマ (,) で区切られた完全なパスでなければなりません。ディレクトリパスではなく、個別のファイルのみがサポートされています。

  • --job-bookmark-option – ジョブブックマークの動作を制御します。次のオプション値を設定できます。

    ‑‑job‑bookmark‑option 値 説明
    job-bookmark-enable 以前に処理されたデータを追跡します。ジョブが実行されると、最後のチェックポイントから新しいデータを処理します。
    job-bookmark-disable 常にデータセット全体を処理します。以前のジョブからの出力の管理は、ユーザーが行います。
    job-bookmark-pause 最後の実行からの増分データを処理します。後続の実行が最後のブックマークからのデータを処理するように、状態についての情報を更新しないでください。以前のジョブからの出力の管理は、ユーザーが行います。

    たとえば、ジョブブックマークを有効にするには、引数を渡します。

    '--job-bookmark-option': 'job-bookmark-enable'
  • --TempDir – ジョブの一時ディレクトリとして使用できるバケットへの S3 パスを指定します。

    たとえば、一時ディレクトリを設定するには、以下の引数を渡します。

    '--TempDir': 's3-path-to-directory'
  • --enable-metrics  —  このジョブの実行のジョブプロファイリングに関するメトリクスの収集を有効にします。これらのメトリクスは、AWS Glue コンソールと CloudWatch コンソールで使用できます。メトリクスを有効にするには、キーを指定します。値は必要ありません。

  • --enable-glue-datacatalog — Spark Hive メタストアとして AWS Glue データカタログ を使用できるようにします。

たとえば、以下は -- 引数と特別なパラメータでジョブを実行する構文です。

$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py"'

また、AWS Glue によって内部的に使用され、お客様が設定する必要のない、複数の引数名があります。

  • --conf – AWS Glue 内部用。設定する必要はありません。

  • --debug – AWS Glue 内部用。設定する必要はありません。

  • --mode – AWS Glue 内部用。設定する必要はありません。

  • --JOB_NAME – AWS Glue 内部用。設定する必要はありません。