Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Tablas de AWS Glue
Puede agregar definiciones de tabla al Catálogo de datos de las siguientes formas:
-
Ejecute un rastreador que se conecte a uno o varios almacenes de datos, determine las estructuras de datos y escriba tablas en el Catálogo de datos. El rastreador utiliza clasificadores personalizados o integrados para reconocer la estructura de los datos. Puede ejecutar su rastreador de manera programada. Para obtener más información, consulte Definición de rastreadores en AWS Glue.
-
Utilice la consola de AWS Glue para crear de forma manual una tabla en el AWS Glue Data Catalog. Para obtener más información, consulte Trabajo con tablas en laAWS Glue consola de.
-
Use la operación
CreateTable
en API de AWS Glue para crear una tabla en AWS Glue Data Catalog. Para obtener más información, consulte CreateTable acción (Python: create_table). -
Utilice plantillas de AWS CloudFormation. Para obtener más información, consulte AWS CloudFormation para AWS Glue.
-
Migración de un metaalmacén de Apache Hive. Para obtener más información, consulte Migración entre un metaalmacén de Hive yAWS Glue Data Catalog
en GitHub.
Al definir una tabla de forma manual mediante la consola o una API, especifica el esquema de tabla y el valor de un campo de clasificación que indica el tipo y el formato de los datos de la fuente de datos. Si un rastreador crea la tabla, el formato de los datos y el esquema se determinan por un clasificador personalizado o un clasificador integrado. Para obtener información adicional acerca de cómo crear una tabla mediante la consola de AWS Glue, consulte Trabajo con tablas en laAWS Glue consola de.
Temas
Particiones de la tabla
Una definición de tabla de AWS Glue de una carpeta de Amazon Simple Storage Service (Amazon S3) puede describir una tabla con particiones. Por ejemplo, para mejorar el desempeño de las consultas, una tabla con particiones podría separar datos mensuales en diferentes archivos con el nombre del mes como clave. En AWS Glue, las definiciones de tabla incluyen la clave de partición de una tabla. Cuando AWS Glue evalúa los datos de carpetas de Amazon S3 para catalogar una tabla, determina si se agrega una tabla individual o con particiones.
Puede crear índices de partición en una tabla para obtener un subconjunto de las particiones en lugar de cargar todas las particiones de la tabla. Para obtener más información sobre cómo trabajar con índices de partición, consulte Trabajar con índices de partición en AWS Glue.
Todas las condiciones siguientes deben cumplirse para que AWS Glue cree una tabla con particiones para una carpeta de Amazon S3:
-
Los esquemas de los archivos son similares, según determine AWS Glue.
-
El formato de datos de los archivos es el mismo.
-
El formato compresión de los archivos es el mismo.
Por ejemplo, es posible que posea un bucket de Amazon S3 denominado my-app-bucket
, en el que almacene datos de aplicaciones de ventas de iOS y Android. Los datos se distribuyen en particiones por año, mes y día. Los archivos de datos para ventas iOS y Android tienen el mismo esquema, formato de datos y formato de compresión. En AWS Glue Data Catalog el rastreador de AWS Glue crea una definición de tabla con claves de partición para año, mes y día.
En la siguiente lista de Amazon S3 para my-app-bucket
se muestran algunas de las particiones. El símbolo =
se utiliza para asignar valores de clave de partición.
my-app-bucket/Sales/year=2010/month=feb/day=1/iOS.csv my-app-bucket/Sales/year=2010/month=feb/day=1/Android.csv my-app-bucket/Sales/year=2010/month=feb/day=2/iOS.csv my-app-bucket/Sales/year=2010/month=feb/day=2/Android.csv ... my-app-bucket/Sales/year=2017/month=feb/day=4/iOS.csv my-app-bucket/Sales/year=2017/month=feb/day=4/Android.csv
Enlaces de recursos a tabla
La consola de AWS Glue se ha actualizado recientemente. La versión actual de la consola no admite enlaces de recursos a tabla. |
El Catálogo de datos también puede contener enlaces de recursos a tablas. Un enlace de recursos a tablas es un enlace a una tabla local o compartida. En la actualidad, puede crear enlaces de recursos solo en AWS Lake Formation. Después de crear un enlace de recurso a una tabla, puede utilizar el nombre del enlace de recursos donde quiera que utilice el nombre de la tabla. Junto con las tablas que posee o que se comparten con usted, los enlaces de recursos a tablas son devueltos por glue:GetTables()
y aparecerán como entradas en la página Tables (Tablas) de la consola de AWS Glue.
El Catálogo de datos también puede contener enlaces de recursos a tablas.
Para obtener más información acerca de los enlaces de recursos, consulte Creación de enlaces de recursos en la Guía para desarrolladores de AWS Lake Formation.
Actualización de tablas del Catálogo de datos creadas de forma manual mediante rastreadores
Es posible que desee crear tablas de AWS Glue Data Catalog de forma manual y, a continuación, mantenerlas actualizadas con rastreadores de AWS Glue. Los rastreadores que se ejecutan en una programación pueden añadir nuevas particiones y actualizar las tablas con cualquier cambio de esquema. Esto también se aplica a tablas migradas desde un metaalmacén de Apache Hive.
Para ello, cuando defina un rastreador, en lugar de especificar un almacén de datos o más como origen de un rastreador, especifique una o más tablas existentes del Catálogo de datos. El rastreador rastrea los almacenes de datos especificados por las tablas del catálogo. En este caso, no se crean tablas nuevas. En su lugar, las tablas que usted crea de forma manual se actualizan.
A continuación se muestran otros motivos por los que podría desear crear tablas de catálogos de forma manual y especificar tablas de catálogos como la fuente del rastreador:
-
Desea elegir el nombre de la tabla de catálogo y no confía en el algoritmo de denominación de tablas de catálogos.
-
Desea evitar que se creen tablas nuevas en caso de que los archivos que tengan un formato que podría interrumpir la detección de particiones se guarden de forma errónea en la ruta de la fuente de datos.
Para obtener más información, consulte Tipo de origen del rastreador.
Propiedades de la tabla del catálogo de datos
Las propiedades o los parámetros de la tabla, tal como se les conoce en la AWS CLI, son cadenas de valores y claves no validadas. Puede establecer sus propias propiedades en la tabla para permitir usos del catálogo de datos fuera de AWS Glue. Otros servicios que utilizan el Catálogo de datos también pueden hacerlo. AWS Glue establece algunas propiedades de la tabla al ejecutar trabajos o rastreadores. A menos que se describa lo contrario, estas propiedades son para uso interno, no se admite que sigan existiendo en su forma actual ni el comportamiento del producto si estas propiedades se cambian manualmente.
Para obtener más información sobre las propiedades de tabla establecidas por los rastreadores de AWS Glue, consulte Parámetros establecidos en las tablas del catálogo de datos por el rastreador.