Paso 2: Configurar el AWS Glue trabajo que exporta la tabla Amazon Keyspaces - Amazon Keyspaces (para Apache Cassandra)

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Paso 2: Configurar el AWS Glue trabajo que exporta la tabla Amazon Keyspaces

En el segundo paso del tutorial, utiliza el script setup-export.sh disponible en Github para crear y configurar el AWS Glue trabajo que se conecta a Amazon Keyspaces mediante el complemento SigV4 y, a continuación, exporta la tabla especificada a su bucket de Amazon S3 creado en el paso anterior. El uso del script le permite exportar datos de Amazon Keyspaces sin necesidad de configurar un clúster de Apache Spark.

Cree un AWS Glue trabajo para exportar una tabla de Amazon Keyspaces a un bucket de Amazon S3.
  • En este paso, ejecuta el script de setup-export.sh shell ubicado en el export-to-s3/ directorio que se usará AWS CloudFormation para crear y configurar el trabajo de AWS Glue exportación. El script toma los siguientes parámetros.

    PARENT_STACK_NAME, EXPORT_STACK_NAME, KEYSPACE_NAME, TABLE_NAME, S3_URI, FORMAT
    • PARENT_STACK_NAME— El nombre de la AWS CloudFormation pila creada en el paso anterior.

    • EXPORT_STACK_NAME— El nombre de la AWS CloudFormation pila que crea el trabajo de AWS Glue exportación.

    • KEYSPACE_NAMEy TABLE_NAME — El nombre completo del espacio de claves y la tabla que se van a exportar. Para este tutorial, lo utilizamoscatalog.book_awards, pero puede sustituirlo por su propio nombre de tabla completo.

    • S3URI— El URI opcional del bucket de Amazon S3. El valor predeterminado es el bucket de Amazon S3 de la pila principal.

    • FORMAT— El formato de datos opcional. El valor predeterminado es parquet. En este tutorial, para facilitar la carga y transformación de los datos, utilizamos el predeterminado.

    Puede usar el siguiente comando de la como ejemplo.

    setup-export.sh cfn-setup cfn-glue catalog book_awards

    Para confirmar que el trabajo se ha creado, puede utilizar la siguiente declaración.

    aws glue list-jobs

    La salida de la instrucción debe ser similar a esta.

    { "JobNames": [ "AmazonKeyspacesExportToS3-cfn-setup-cfn-glue" ] }

    Para ver los detalles del trabajo, puede usar el siguiente comando.

    aws glue get-job --job-name AmazonKeyspacesExportToS3-cfn-setup-cfn-glue

    El resultado del comando muestra todos los detalles del trabajo. Esto incluye los argumentos predeterminados que puede anular al ejecutar el trabajo.

    { "Job": { "Name": "AmazonKeyspacesExportToS3-cfn-setup-cfn-glue", "JobMode": "SCRIPT", "JobRunQueuingEnabled": false, "Description": "export to s3", "Role": "iam-export-role", "CreatedOn": "2025-01-30T15:53:30.765000+00:00", "LastModifiedOn": "2025-01-30T15:53:30.765000+00:00", "ExecutionProperty": { "MaxConcurrentRuns": 1 }, "Command": { "Name": "glueetl", "ScriptLocation": "s3://s3-keyspaces/scripts/cfn-setup-cfn-glue-export.scala", "PythonVersion": "3" }, "DefaultArguments": { "--write-shuffle-spills-to-s3": "true", "--S3_URI": "s3://s3-keyspaces", "--TempDir": "s3://s3-keyspaces/shuffle-space/export-sample/", "--extra-jars": "s3://s3-keyspaces/jars/spark-cassandra-connector-assembly_2.12-3.1.0.jar,s3://s3-keyspaces/jars/aws-sigv4-auth-cassandra-java-driver-plugin-4.0.9-shaded.jar,s3://s3-keyspaces/jars/spark-extension_2.12-2.8.0-3.4.jar,s3://s3-keyspaces/jars/amazon-keyspaces-helpers-1.0-SNAPSHOT.jar", "--class": "GlueApp", "--user-jars-first": "true", "--enable-metrics": "true", "--enable-spark-ui": "true", "--KEYSPACE_NAME": "catalog", "--spark-event-logs-path": "s3://s3-keyspaces/spark-logs/", "--enable-continuous-cloudwatch-log": "true", "--write-shuffle-files-to-s3": "true", "--FORMAT": "parquet", "--TABLE_NAME": "book_awards", "--job-language": "scala", "--extra-files": "s3://s3-keyspaces/conf/keyspaces-application.conf", "--DRIVER_CONF": "keyspaces-application.conf" }, "MaxRetries": 0, "AllocatedCapacity": 4, "Timeout": 2880, "MaxCapacity": 4.0, "WorkerType": "G.2X", "NumberOfWorkers": 2, "GlueVersion": "3.0" } }

Si el proceso de AWS CloudFormation apilado falla, puedes revisar los errores de la pila fallida en la AWS CloudFormation consola. Puede revisar los detalles del trabajo de exportación en la AWS Glue consola seleccionando los trabajos de ETL en el menú de la izquierda.

Una vez que hayas confirmado los detalles del trabajo de AWS Glue exportación, procede Paso 3: Ejecute el AWS Glue trabajo para exportar la tabla de Amazon Keyspaces al bucket de Amazon S3 desde AWS CLI a ejecutar el trabajo para exportar los datos de tu tabla de Amazon Keyspaces.