Uso del marco de Delta Lake en los orígenes de datos
Uso del marco de Delta Lake en los orígenes de datos de Amazon S3
-
En el menú Origen, elija Amazon S3.
-
Si elige la tabla del Catálogo de datos como el tipo de origen de Amazon S3, elija una base de datos y una tabla.
-
AWS Glue Studio muestra el formato como Delta Lake y la dirección URL de Amazon S3.
-
Elija Opciones adicionales para introducir un par clave-valor. Por ejemplo, un par clave-valor podría ser el siguiente: clave: timestampAsOf y valor: 2023-02-24 14:16:18.
-
Si elige la ubicación de Amazon S3 como el Tipo de origen de Amazon S3, elija la dirección URL de Amazon S3 haciendo clic en Examinar Amazon S3.
-
En Formato de datos, elija Delta Lake.
nota
Si AWS Glue Studio no puede deducir el esquema de la carpeta o el archivo de Amazon S3 que ha seleccionado, elija Opciones adicionales para seleccionar una nueva carpeta o archivo.
En Opciones adicionales, elija una de las siguientes opciones en Inferencia del esquema:
-
Permitir que AWS Glue Studio elija automáticamente un archivo de muestra: AWS Glue Studio elegirá un archivo de muestra en la ubicación de Amazon S3 para poder deducir el esquema. En el campo Archivo de muestra seleccionado de manera automática, puede ver el archivo que se seleccionó automáticamente.
-
Elegir un archivo de muestra de Amazon S3: elija el archivo de Amazon S3 que va a utilizar haciendo clic en Examinar Amazon S3.
-
-
Haga clic en Deducir esquema. A continuación, puede ver el esquema de salida haciendo clic en la pestaña Esquema de salida.
Uso del marco de Delta Lake en los orígenes de datos del Catálogo de datos
-
En el menú Origen, seleccione Catálogo de datos de AWS Glue Studio.
-
En la pestaña Propiedades del origen de datos, elija una base de datos y una tabla.
-
AWS Glue Studio muestra el tipo de formato como Delta Lake y la dirección URL de Amazon S3.
nota
Si su origen de Delta Lake aún no está registrado como tabla del Catálogo de datos AWS Glue, tiene dos opciones:
-
Cree un rastreador de AWS Glue para el almacén de datos de Delta Lake. Para obtener más información, consulte Cómo especificar opciones de configuración para un almacén de datos de Delta Lake.
-
Use un origen de datos de Amazon S3 para seleccionar su origen de datos de Delta Lake. Consulte Uso del marco de Delta Lake en los orígenes de datos de Amazon S3 .
-
Uso de formatos de Delta Lake en los destinos de datos
Uso de formatos de Delta Lake en los destinos de datos del Catálogo de datos
-
En el menú Destino, seleccione Catálogo de datos de AWS Glue Studio.
-
En la pestaña Propiedades del origen de datos, elija una base de datos y una tabla.
-
AWS Glue Studio muestra el tipo de formato como Delta Lake y la dirección URL de Amazon S3.
Uso de formatos de Delta Lake en los orígenes de datos de Amazon S3
Introduzca valores o seleccione una de las opciones disponibles para configurar el formato de Delta Lake.
-
Tipo de compresión: elija una de las opciones de tipo de compresión; sin comprimir o Snappy.
-
Ubicación de destino de Amazon S3: para elegir la ubicación de destino de Amazon S3, haga clic en Examinar S3.
-
Opciones de actualización del Catálogo de datos: en el editor visual de Glue Studio, no se admite la actualización del Catálogo de datos para este formato.
-
Do not update the Data Catalog (No actualizar el Catálogo de datos): (predeterminado) seleccione esta opción si no desea que el trabajo actualice el Catálogo de datos, incluso si el esquema cambia o se agregan nuevas particiones.
-
Para actualizar el Catálogo de datos después de la ejecución del trabajo de AWS Glue, ejecute o programe un rastreador de AWS Glue. Para obtener más información, consulte Cómo especificar opciones de configuración para un almacén de datos de Delta Lake.
-
-
Claves de partición: elija qué columnas utilizar como claves de partición en la salida. Para agregar más claves de partición, elija Agregar una clave de partición.
-
Puede elegir Opciones adicionales para introducir un par clave-valor. Por ejemplo, un par clave-valor podría ser el siguiente: clave: timestampAsOf y valor: 2023-02-24 14:16:18.