MongoDB 接続を使用する - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

MongoDB 接続を使用する

MongoDBの接続を作成した後、あなたのETLジョブでこの接続を使用することができます。テーブルを作成するにはAWS Glue Data CatalogにMongoDB接続を指定し、connectionテーブルの属性を。接続url,usernameおよびpasswordは MongoDB 接続に格納されます。その他のオプションは、追加オプションとしてジョブスクリプトで指定できます。その他のオプションは次のとおりです。

  • "database": (必須) 読み込み元の MongoDB データベース。

  • "collection": (必須) 読み込み元の MongoDB コレクション。

  • "ssl": (オプション)true、次にAWS GlueSSL 接続を開始します。デフォルト値は false です。

  • "ssl.domain_match": (オプション)trueおよびssltrue、次にAWS Glueは、ドメインの一致チェックを実行します。デフォルト値は true です。

  • "batchSize": (オプション): 内部バッチのカーソル内で使用される、バッチごとに返されるドキュメントの数。

  • "partitioner": (オプション): MongoDB から入力データを読み取るためのパーティショナーのクラス名。コネクタには、次のパーティショナーがあります。

    • MongoDefaultPartitioner (デフォルト)

    • MongoSamplePartitioner (MongoDB 3.2 以降が必要です)

    • MongoShardedPartitioner

    • MongoSplitVectorPartitioner

    • MongoPaginateByCountPartitioner

    • MongoPaginateBySizePartitioner

  • "partitionerOptions": (オプション): 指定されたパーティショナーのオプション。各パーティショナーでは、次のオプションがサポートされています。

    • MongoSamplePartitionerpartitionKey,partitionSizeMB, およびsamplesPerPartition

    • MongoShardedPartitionershardkey

    • MongoSplitVectorPartitionerpartitionKeyおよびpartitionSizeMB

    • MongoPaginateByCountPartitionerpartitionKeyおよびnumberOfPartitions

    • MongoPaginateBySizePartitionerpartitionKeyおよびpartitionSizeMB

これらのパラメータの詳細については、https://docs.mongodb.com/spark-connector/master/configuration/#partitioner-confを参照してください。

次の例では、DynamicFrameをカタログソースから選択します。

Python
glue_context.create_dynamic_frame_from_catalog( database = nameSpace, table_name = tableName, additional_options = {"database":"database_name", "collection":"collection_name"})
Scala
val resultFrame: DynamicFrame = glueContext.getCatalogSource( database = nameSpace, tableName = tableName, additionalOptions = JsonOptions(Map("database" -> DATABASE_NAME, "collection" -> COLLECTION_NAME)) ).getDynamicFrame()