AWS Glue で使用される特別なパラメータ - AWS Glue

「翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。」

AWS Glue で使用される特別なパラメータ

AWS Glue は、ジョブおよびジョブ実行のスクリプト環境をセットアップするために使用できるいくつかの引数名を認識します。

  • --job-language — スクリプトプログラミング言語。この値は scala または python である必要があります。 このパラメータが存在しない場合、デフォルトは python です。

  • --class Scala スクリプトのエントリポイントとなる Scala クラス。—これは、--job-languagescala に設定した場合にのみ適用されます。

  • --scriptLocation — ETL スクリプトが配置されている Amazon Simple Storage Service (Amazon S3) の場所 (s3://path/to/my/script.py の形式)。このパラメータは、JobCommand オブジェクトで設定されているスクリプトの場所を上書きします。

  • --extra-py-files — スクリプトを実行する前に Amazon S3 が Python パスに追加する、追加の Python モジュールへの AWS Glue パス。複数の値はコンマ (,) で区切られた完全なパスでなければなりません。ディレクトリパスではなく、個別のファイルのみがサポートされています。現在、純粋な Python モジュールのみが有効です。C または他の言語で書かれた拡張モジュールはサポートされていません。

  • --extra-jars — スクリプトを実行する前に Amazon S3 が Java クラスパスに追加する、追加の Java .jar ファイルへの AWS Glue パス。複数の値はコンマ (,) で区切られた完全なパスでなければなりません。

  • --user-jars-first — この値を true に設定すると、クラスパス内の顧客の追加の JAR ファイルが優先されます。このオプションは AWS Glue バージョン 2.0 でのみ使用できます。

  • --extra-files — スクリプトを実行する前に、Amazon S3 がスクリプトの作業ディレクトリにコピーする設定ファイルなどの追加ファイルへの AWS Glue パス。複数の値はコンマ (,) で区切られた完全なパスでなければなりません。ディレクトリパスではなく、個別のファイルのみがサポートされています。

  • --job-bookmark-option ブックマークジョブの動作を制御します。—次のオプション値を設定できます。

    ‑‑job‑bookmark‑option 値 説明
    job-bookmark-enable 以前に処理されたデータを追跡します。ジョブが実行されると、最後のチェックポイントから新しいデータを処理します。
    job-bookmark-disable 常にデータセット全体を処理します。以前のジョブからの出力の管理は、ユーザーが行います。
    job-bookmark-pause 最後のブックマークの状態は更新せずに、最後に正常に実行された後の増分データ、または次のサブオプションで識別される範囲内のデータを処理します。以前のジョブからの出力の管理は、ユーザーが行います。2 つのサブオプションは以下のとおりです。
    • job-bookmark-from <from-value> は、指定された実行 ID を含む最後に成功した実行までに処理されたすべての入力を表す実行 ID です。対応する入力は無視されます。

    • job-bookmark-to <to-value> は、指定された実行 ID を含む最後に成功した実行までに処理されたすべての入力を表す実行 ID です。<from-value> によって識別される入力を除く対応する入力は、ジョブによって処理されます。この入力より後の入力も処理対象から除外されます。

    このオプションが設定されている場合、ジョブのブックマークの状態は更新されません。

    サブオプションはオプションです。ただし、使用する場合は、両方のサブオプションを指定する必要があります。

    たとえば、ジョブブックマークを有効にするには、以下の引数を渡します。

    '--job-bookmark-option': 'job-bookmark-enable'
  • --TempDir — ジョブの一時ディレクトリとして使用できるバケットへの Amazon S3 パスを指定します。

    たとえば、一時ディレクトリを設定するには、以下の引数を渡します。

    '--TempDir': 's3-path-to-directory'
  • --enable-s3-parquet-optimized-committer EMRFS S3 向けに最適化されたコミッターを有効にして Parquet データを — に書き込みます。Amazon S3AWS Glue ジョブを作成または更新するときに、AWS Glue コンソールからパラメータ/値のペアを指定できます。値を true に設定すると、コミッターが有効になります。デフォルトでは、このフラグはオフになっています。

    詳細については、「EMRFS S3 向けに最適化されたコミッターの使用」を参照してください。

  • --enable-rename-algorithm-v2 EMRFS の名前変更アルゴリズムのバージョンをバージョン 2 に設定します。—Spark ジョブが動的パーティション上書きモードを使用している場合、パーティションが重複して作成される可能性があります。たとえば、結果として s3://bucket/table/location/p1=1/p1=1 などのパーティションが重複できます。 ここで P1 は上書きされるパーティションです。名前の変更アルゴリズムバージョン 2 では、この問題を修正します。

    このオプションは、AWS Glue バージョン 1.0 でのみ使用できます。

  • --enable-glue-datacatalog Apache Spark Hive メタストアとして — を使用できるようにします。AWS Glue データカタログ

  • --enable-metrics — このジョブ実行のジョブプロファイリングに関するメトリクスの収集を有効にします。これらのメトリクスは、AWS Glue コンソールと Amazon CloudWatch コンソールで使用できます。メトリクスを有効にするには、キーを指定します。値は必要ありません。

  • --enable-continuous-cloudwatch-log — ジョブのリアルタイムの連続ログ記録を有効にします。AWS GlueCloudWatch でリアルタイムの Apache Spark ジョブログを表示できます。

  • --enable-continuous-log-filter — 連続ロギングが有効なジョブを作成または編集するときに、標準フィルタ (true) またはフィルタなし (false) を指定します。標準フィルタを選択すると、無用な Apache Spark ドライバー/エグゼキュータや Apache Hadoop YARN ハートビートのログメッセージは除外されます。フィルタなしを選択すると、すべてのログメッセージが表示されます。

  • --continuous-log-logGroup — 連続ロギングが有効なジョブのカスタム Amazon CloudWatch ロググループ名を指定します。

  • --continuous-log-logStreamPrefix — 連続ロギングが有効なジョブのカスタム CloudWatch ログストリームプレフィックスを指定します。

  • --continuous-log-conversionPattern — 連続ログ記録が有効なジョブのカスタム変換ログパターンを指定します。変換パターンは、ドライバーログとエグゼキューターログにのみ適用されます。AWS Glue の進行状況バーには影響しません。

たとえば、以下は -- 引数と特別なパラメータでジョブを実行する構文です。

$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py"'

AWS Glue によって内部的に使用され、お客様が設定する必要のない、複数の引数名を以下に示します。

  • --conf — 内部用。AWS Glue設定する必要はありません。

  • --debug — 内部用。AWS Glue設定する必要はありません。

  • --mode — 内部用。AWS Glue設定する必要はありません。

  • --JOB_NAME — 内部用。AWS Glue設定する必要はありません。