AWS Sistemas tipo Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS Sistemas tipo Glue

AWS Glue utiliza varios sistemas de tipos para proporcionar una interfaz versátil en los sistemas de datos que almacenan datos de formas muy diferentes. Este documento elimina la ambigüedad de los sistemas tipo AWS Glue y los estándares de datos.

AWS Tipos de catálogos de datos de Glue

El catálogo de datos es un registro de tablas y campos almacenados en diferentes sistemas de datos, un metaalmacén. Cuando los componentes de AWS AWS Glue, como los rastreadores de AWS Glue y los trabajos de Glue with Spark, escriben en el catálogo de datos, lo hacen con un sistema de tipos interno para rastrear los tipos de campos. Estos valores se muestran en la columna Tipo de datos del esquema de tabla de la AWS Glue Console. Este sistema de tipos se basa en el sistema de tipos de Apache Hive. Para obtener más información sobre el sistema de tipos de Apache Hive, consulte Tipos en la wiki de Apache Hive. Para obtener más información sobre tipos específicos y compatibilidad, se proporcionan ejemplos en la consola AWS Glue, como parte del Generador de esquemas.

Validación, compatibilidad y otros usos

El catálogo de datos no valida los tipos escritos en campos de tipos. Cuando los componentes de AWS Glue lean y escriban en el catálogo de datos, serán compatibles entre sí. AWS Los componentes de Glue también tienen como objetivo preservar un alto grado de compatibilidad con los tipos Hive. Sin embargo, los componentes de AWS Glue no garantizan la compatibilidad con todos los tipos de colmenas. Esto permite la interoperabilidad con herramientas como Athena DDL cuando se trabaja con tablas del catálogo de datos.

Dado que el catálogo de datos no valida los tipos, otros servicios pueden usarlo para rastrear los tipos mediante sistemas que se ajusten estrictamente al sistema de tipos de Hive o a cualquier otro sistema.

Escribe guiones en AWS Glue with Spark

Cuando un script de AWS Glue with Spark interpreta o transforma un conjunto de datosDynamicFrame, proporcionamos una representación en memoria del conjunto de datos tal como se usa en el script. El objetivo de un DynamicFrame es similar al del Spark DataFrame: modela tu conjunto de datos para que Spark pueda programar y ejecutar transformaciones en los datos. Garantizamos que la representación de tipos de DynamicFrame es intercompatible con DataFrame y proporciona los métodos toDF y fromDF.

Si la información de tipos se puede inferir o proporcionar a un DataFrame, se puede inferir o proporcionar a un DynamicFrame, a menos que se documente lo contrario. Cuando proporcionamos lectores o escritores optimizados para formatos de datos específicos, si Spark puede leer o escribir sus datos, los lectores y escritores que proporcionemos podrán hacerlo, con sujeción a las limitaciones documentadas. Para obtener más información acerca de los lectores y los escritores, consulte Opciones de formato de datos para las entradas y las salidas en AWS Glue para Spark.

El tipo Choice

Los DynamicFrames proporcionan un mecanismo para modelar los campos de un conjunto de datos cuyo valor puede tener tipos inconsistentes en el disco en todas las filas. Por ejemplo, un campo puede contener un número almacenado como cadena en determinadas filas y un entero en otras. Este mecanismo es de un tipo en memoria denominado Choice. Proporcionamos transformaciones, como el ResolveChoice método, para convertir las columnas de Choice en un tipo concreto. AWS Glue ETL no escribirá el tipo Choice en el catálogo de datos en el transcurso normal de la operación; los tipos Choice solo existen en el contexto de los modelos de DynamicFrame memoria de los conjuntos de datos. Para ver un ejemplo del uso del tipo Choice, consulte Ejemplo de código: Preparación de datos con ResolveChoice, Lambda y ApplyMapping.

AWS Tipos de Glue Crawler

Los rastreadores tienen como objetivo producir un esquema coherente y utilizable para su conjunto de datos y, después, almacenarlo en el catálogo de datos para usarlo en otros componentes de AWS Glue y Athena. Los rastreadores se encargan de los tipos, como se describe en la sección anterior sobre el catálogo de datos, AWS Tipos de catálogos de datos de Glue. Para generar un tipo utilizable en los escenarios de tipo “Choice”, en los que una columna contiene valores de dos o más tipos, los rastreadores crearán un tipo struct que modele los tipos potenciales.