AWS Glue
開発者ガイド

DynamicFrameReader クラス

 — メソッド —

__init__

__init__(glue_context)

from_rdd

from_rdd(data, name, schema=None, sampleRatio=None)

Resilient Distributed Dataset (RDD) から DynamicFrame を読み取ります。

  • data – 読み取り元のデータセット。

  • name – 読み取り元の名前。

  • schema – 読み取るスキーマ (オプション)。

  • sampleRatio – サンプル比率 (オプション)。

from_options

from_options(connection_type, connection_options={}, format=None, format_options={}, transformation_ctx="", push_down_predicate="")

指定された接続と形式を使用して DynamicFrame を読み込みます。

  • connection_type – 接続タイプ。有効な値には、s3mysqlpostgresqlredshiftsqlserveroracle および dynamodb があります。

  • connection_options – 接続オプション (パスやデータベーステーブルなど) (オプション)。 の の場合、Amazon S3 のパスは配列で定義されます。

    connection_options = {"paths": [ "s3://mybucket/object_a", "s3://mybucket/object_b"]}

    JDBC 接続の場合、いくつかのプロパティを定義する必要があります。データベース名は URL の一部である必要があることに注意してください。オプションで接続オプションに含めることができます。

    connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path"}

    並列読み込みを実行する ​​JDBC 接続の場合、ハッシュフィールドオプションを設定できます。以下に例を示します。

    connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path" , "hashfield": "month"}

    詳細については、「JDBC テーブルからの並列読み取り」を参照してください。

  • format – 形式の仕様 (オプション)。これは、複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) または AWS Glue 接続に使用します。サポートされる形式については、「AWS Glue での ETL 入力および出力の形式オプション」を参照してください。

  • format_options – 指定した形式の形式オプション。サポートされる形式については、「AWS Glue での ETL 入力および出力の形式オプション」を参照してください。

  • transformation_ctx – 使用する変換コンテキスト (オプション)。

  • push_down_predicate – データセットのすべてのファイルをリストアップして読み取る必要がないフィルタパーティション。詳細については、「プッシュダウン述語を使用した事前フィルタ処理」を参照してください。

from_catalog

from_catalog(name_space, table_name, redshift_tmp_dir="", transformation_ctx="", push_down_predicate="", additional_options={})

指定されたカタログの名前空間とテーブル名を使用して DynamicFrame を読み取ります。

  • name_space – 読み込むデータベース。

  • table_name – 読み取り元のテーブルの名前。

  • redshift_tmp_dir – 使用する Amazon Redshift の一時ディレクトリ (オプション)。

  • transformation_ctx – 使用する変換コンテキスト (オプション)。

  • push_down_predicate – データセットのすべてのファイルをリストアップして読み取る必要がないフィルタパーティション。詳細については、「プッシュダウン述語を使用した事前フィルタ処理」を参照してください。

  • additional_options – AWS Glue に指定する追加のオプション。並列読み込みを実行する ​​JDBC 接続を使用するには、hashfieldhashexpression、または hashpartitions オプションを設定できます。以下に例を示します。

    additional_options = {"hashfield": "month"}

    詳細については、「JDBC テーブルからの並列読み取り」を参照してください。