Uso de una conexión MongoDB o MongoDB Atlas - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de una conexión MongoDB o MongoDB Atlas

Después de crear una conexión para MongoDB o MongoDB Atlas puede utilizarla en un trabajo de ETL. Puede crear una tabla en la AWS Glue Data Catalog y especificar la conexión de MongoDB o MongoDB Atlas para el atributo connection de la tabla.

AWS Glue almacena la url y las credenciales de la conexión en la conexión de MongoDB. Los formatos de URI de conexión son los siguientes:

  • Para MongoDB: mongodb://host:port/database. El host puede ser un nombre de host, una dirección IP o un socket de dominio UNIX. Si la cadena de conexión no especifica ningún puerto, utiliza el puerto predeterminado de MongoDB, 27017.

  • Para MongoDB Atlas: mongodb+srv://server.example.com/database. El host puede ser un nombre de host que corresponde a un registro SRV de DNS. El formato SRV no requiere ningún puerto y utilizará el puerto MongoDB predeterminado, 27017.

Además, se pueden especificar las siguientes opciones en el script del trabajo.

  • "database": (obligatorio) la base de datos de MongoDB de la que se va a leer.

  • "collection": (obligatorio) la colección de MongoDB de la que se va a leer.

  • "ssl": (disponible para (opcional) si es true, AWS Glue inicia una conexión SSL. El valor predeterminado es false.

  • "ssl.domain_match": (opcional) si es true y ssl es true, AWS Glue realiza la comprobación de coincidencia de dominio. El valor predeterminado es true.

  • "batchSize": (opcional): el número de documentos que se deben devolver por lote, que se utilizan dentro del cursor de lotes internos.

  • "partitioner": (opcional): el nombre de la clase del particionador para leer los datos de entrada de MongoDB. El conector proporciona los siguientes particionadores:

    • MongoDefaultPartitioner (predeterminado)

    • MongoSamplePartitioner (Requiere MongoDB 3.2 o posterior)

    • MongoShardedPartitioner

    • MongoSplitVectorPartitioner

    • MongoPaginateByCountPartitioner

    • MongoPaginateBySizePartitioner

  • "partitionerOptions": ( opcional) opciones para el particionador designado. Se admiten las siguientes opciones para cada particionador:

    • MongoSamplePartitioner: partitionKey, partitionSizeMB y samplesPerPartition

    • MongoShardedPartitionershardkey

    • MongoSplitVectorPartitioner: partitionKey y partitionSizeMB

    • MongoPaginateByCountPartitioner: partitionKey y numberOfPartitions

    • MongoPaginateBySizePartitioner: partitionKey y partitionSizeMB

Para obtener más información sobre estas opciones, consulte https://docs.mongodb.com/spark-connector/master/configuration/#partitioner-conf.