AWS Glue で使用される特別なパラメータ - AWS Glue

AWS Glue で使用される特別なパラメータ

AWS Glue は、ジョブおよびジョブ実行のスクリプト環境をセットアップするために使用できるいくつかの引数名を認識します。

  • --job-language – スクリプトプログラミング言語。この値は scala または python のいずれかである必要があります。このパラメータが存在しない場合、デフォルトで python が使用されます。

  • --class – Scala スクリプトのエントリポイントとなる Scala クラス。これは、--job-languagescala に設定した場合にのみ適用されます。

  • --scriptLocation - ETL スクリプトが s3://path/to/my/script.py の形式で配置されている Amazon Simple Storage Service (Amazon S3) の場所。このパラメータは、JobCommand オブジェクトで設定されているスクリプトの場所を上書きします。

  • --extra-py-files - スクリプトを実行する前に AWS Glue が Python パスに追加する、追加の Python モジュールへの Amazon S3 パス。複数の値はコンマ (,) で区切られた完全なパスでなければなりません。ディレクトリパスではなく、個別のファイルのみがサポートされています。現在、純粋な Python モジュールのみが有効です。C または他の言語で書かれた拡張モジュールはサポートされていません。

  • --extra-jars - スクリプトを実行する前に AWS Glue が Java クラスパスに追加する、追加 Java .jar ファイルへの Amazon S3 パス。複数の値はコンマ (,) で区切られた完全なパスでなければなりません。

  • --extra-files - スクリプトを実行する前に、AWS Glue がスクリプトの作業ディレクトリにコピーする設定ファイルなどの追加ファイルへの Amazon S3 パス。複数の値はコンマ (,) で区切られた完全なパスでなければなりません。ディレクトリパスではなく、個別のファイルのみがサポートされています。

  • --job-bookmark-option – ジョブブックマークの動作を制御します。次のオプション値を設定できます。

    ‑‑job‑bookmark‑option 値 説明
    job-bookmark-enable 以前に処理されたデータを追跡します。ジョブが実行されると、最後のチェックポイントから新しいデータを処理します。
    job-bookmark-disable 常にデータセット全体を処理します。以前のジョブからの出力の管理は、ユーザーが行います。
    job-bookmark-pause 最後のブックマークの状態は更新せずに、最後に正常に実行された後の増分データ、または次のサブオプションで識別される範囲内のデータを処理します。以前のジョブからの出力の管理は、ユーザーが行います。2 つのサブオプションは以下のとおりです。
    • job-bookmark-from <from-value> は、指定された実行 ID を含む最後に成功した実行までに処理されたすべての入力を表す実行 ID です。対応する入力は無視されます。

    • job-bookmark-to <to-value> は、指定された実行 ID を含む最後に成功した実行までに処理されたすべての入力を表す実行 ID です。<from-value> によって識別される入力を除く対応する入力は、ジョブによって処理されます。この入力より後の入力も処理対象から除外されます。

    このオプションが設定されている場合、ジョブのブックマークの状態は更新されません。

    サブオプションはオプションです。ただし、使用する場合は、両方のサブオプションを指定する必要があります。

    たとえば、ジョブブックマークを有効にするには、以下の引数を渡します。

    '--job-bookmark-option': 'job-bookmark-enable'
  • --TempDir - ジョブの一時ディレクトリとして使用できるバケットへの Amazon S3 パスを指定します。

    たとえば、一時ディレクトリを設定するには、以下の引数を渡します。

    '--TempDir': 's3-path-to-directory'
  • --enable-s3-parquet-optimized-committer — Parquet データを Amazon S3 に書き込むために EMRFS S3 最適化コミッターを有効にします。AWS Glue ジョブを作成または更新するときに、AWS Glue コンソールからパラメータ/値のペアを指定できます。値を true に設定すると、コミッターが有効になります。デフォルトでは、このフラグはオフになっています。

    詳細については、「EMRFS S3 向けに最適化されたコミッターの使用」を参照してください。

  • --enable-glue-datacatalog - Apache Spark Hive メタストアとして AWS Glue データカタログ を使用できるようにします。

  • --enable-metrics  —  このジョブの実行のジョブプロファイリングに関するメトリクスの収集を有効にします。これらのメトリクスは、AWS Glue コンソールと Amazon CloudWatch コンソールで使用できます。メトリクスを有効にするには、キーを指定します。値は必要ありません。

  • --enable-continuous-cloudwatch-log - AWS Glue ジョブのリアルタイムの連続ログ記録を有効にします。CloudWatch でリアルタイムの Apache Spark ジョブログを表示できます。

  • --enable-continuous-log-filter ー 連続ログ記録が有効であるジョブを作成または編集するときに、標準フィルタ (true) またはフィルタなし (false) を指定します。標準フィルタを選択すると、無用な Apache Spark ドライバー/エグゼキュータや Apache Hadoop YARN ハートビートのログメッセージは除外されます。フィルタなしを選択すると、すべてのログメッセージが表示されます。

  • --continuous-log-logGroup - 連続ロギングが有効なジョブのカスタム Amazon CloudWatch ロググループ名を指定します。

  • --continuous-log-logStreamPrefix - 連続ロギングが有効なジョブのカスタム CloudWatch ログストリームプレフィックスを指定します。

  • --continuous-log-conversionPattern — 連続ログを有効にしたジョブのカスタム変換ログパターンを指定します。変換パターンは、ドライバーログとエグゼキューターログにのみ適用されます。AWS Glue の進行状況バーには影響しません。

たとえば、以下は -- 引数と特別なパラメータでジョブを実行する構文です。

$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py"'

AWS Glue によって内部的に使用され、お客様が設定する必要のない、複数の引数名を以下に示します。

  • --conf  —  AWS Glue 内部用。設定する必要はありません。

  • --debug  —  AWS Glue 内部用。設定する必要はありません。

  • --mode  —  AWS Glue 内部用。設定する必要はありません。

  • --JOB_NAME  —  AWS Glue 内部用。設定する必要はありません。