Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Trabajo con tablas en laAWS Glue consola de
Una tabla en el AWS Glue Data Catalog es la definición de metadatos que representa los datos en un almacén de datos. Puede crear tablas al ejecutar un rastreador, o bien puede crear una tabla manualmente en la consola de AWS Glue. En la lista Tables (Tablas) en la consola de AWS Glue se muestran los valores de los metadatos de su tabla. Puede usar definiciones de tabla para especificar orígenes y destinos al crear trabajos de ETL (extracción, transformación y carga).
nota
Con los cambios recientes en la consola de administración de AWS, es posible que tenga que modificar sus roles de IAM existentes para obtener permiso de SearchTables
. Para la creación de nuevos roles, se agregó de forma predeterminada el permiso de la API de SearchTables
.
Para comenzar, inicie sesión en AWS Management Console y abra la consola de AWS Glue en https://console.aws.amazon.com/glue/
Adición de tablas en la consola
A fin de usar un rastreador para añadir tablas, elija Add tables (Añadir tablas) y Add tables using a crawler (Añadir tablas mediante un rastreador). A continuación, siga las instrucciones en el asistente Add crawler (adición de rastreadores). Cuando se ejecuta el rastreador, se añaden las tablas al AWS Glue Data Catalog. Para obtener más información, consulte Definición de rastreadores en AWS Glue.
Si conoce los atributos necesarios para crear una definición de tabla de Amazon Simple Storage Service (Amazon S3) en su Data Catalog puede crearla con el asistente de tabla. Elija Add tables (Añadir tablas), Add table manually (Añadir tabla manualmente) y siga las instrucciones en el asistente Add table (adición de tabla).
Al añadir una tabla manualmente a través de la consola, tenga en cuenta lo siguiente:
-
Si tiene previsto obtener acceso a la tabla desde Amazon Athena, proporcione un nombre únicamente con caracteres alfanuméricos y guiones bajos. Para obtener más información, consulte Nombres de Athena.
-
La ubicación de sus datos de origen debe ser una ruta de Amazon S3.
-
El formato de datos de los datos debe coincidir con uno de los formatos que aparecen en el asistente. La clasificación correspondiente y otras propiedades de la tabla se rellenan automáticamente en función del formato elegido. SerDe Puede definir tablas con los siguientes formatos:
- JSON
-
JavaScript JavaScript Object Notation.
- CSV
-
Valores separados por caracteres. También puede especificar el delimitador de coma, barra vertical, punto y coma, tabulador o Ctrl-A.
- Parquet
-
Almacenamiento en columnas de Apache Parquet.
- Avro
-
Formato binario JSON Apache Avro.
- XML
-
Formato de lenguaje de marcado extensible. Especifique la etiqueta XML que define una fila en los datos. Las columnas se definen dentro de etiquetas de fila.
-
Puede definir una clave de partición para la tabla.
-
Actualmente, las tablas con particiones que crea con la consola no se pueden usar en los trabajos de ETL.
Atributos de tabla
A continuación se muestran algunos atributos importantes de su tabla:
- Nombre de la tabla
-
El nombre se determina al crearse la tabla y no puede cambiarlo. Puede hacer referencia a un nombre de tabla en muchas operaciones de AWS Glue.
- Base de datos
-
El objeto contenedor donde reside su tabla. Este objeto contiene una organización de sus tablas que existe en el AWS Glue Data Catalog y puede diferir de una organización en su almacén de datos. Al eliminar una tabla, todas las tablas incluidas en la base de datos también se eliminan del Data Catalog.
- Location
-
El señalizador a la ubicación de los datos en un almacén de datos que representa esta definición de tabla.
- Clasificación
-
Un valor de categorización proporcionado cuando se creó la tabla. Normalmente, este se escribe al ejecutarse un rastreador y especifica el formato de los datos de origen.
- Última actualización
-
La hora y la fecha (UTC) en que se actualizó esta tabla en el Data Catalog.
- Fecha añadida
-
La hora y la fecha (UTC) en que se agregó esta tabla al Data Catalog.
- Descripción
-
Descripción de la tabla. Puede escribir una descripción para ayudarle a entender el contenido de la tabla.
- Obsoleto
-
Si AWS Glue descubre que una tabla en el Data Catalog ya no existe en su almacén de datos original, marca la tabla como obsoleta en el catálogo de datos. Si ejecuta un flujo de trabajo que hace referencia a una tabla obsoleta, podría producirse un error en el flujo de trabajo. Edite trabajos que hagan referencia a tablas obsoletas para quitarlas como orígenes y destinos. Recomendamos que elimine las tablas obsoletas cuando ya no sean necesarias.
- Conexión
-
Si AWS Glue requiere una conexión a su almacén de datos, el nombre de la conexión se asocia a la tabla.
Visualización y edición de los detalles de la tabla
Para ver los detalles de una tabla existente, elija el nombre de tabla de la lista y, a continuación, elija Action, View details (Acción, Ver detalles).
Entre los detalles de la tabla se incluyen propiedades de su tabla y su esquema. Esta vista muestra el esquema de la tabla, incluidos los nombres de columna en el orden definido para la tabla, los tipos de datos y las columnas con clave para las particiones. Si una columna es un tipo complejo, puede elegir View properties (Ver propiedades) para mostrar detalles de la estructura de ese campo, como se muestra en el siguiente ejemplo:
{ "StorageDescriptor": { "cols": { "FieldSchema": [ { "name": "primary-1", "type": "CHAR", "comment": "" }, { "name": "second ", "type": "STRING", "comment": "" } ] }, "location": "s3://aws-logs-111122223333-us-east-1", "inputFormat": "", "outputFormat": "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat", "compressed": "false", "numBuckets": "0", "SerDeInfo": { "name": "", "serializationLib": "org.apache.hadoop.hive.serde2.OpenCSVSerde", "parameters": { "separatorChar": "|" } }, "bucketCols": [], "sortCols": [], "parameters": {}, "SkewedInfo": {}, "storedAsSubDirectories": "false" }, "parameters": { "classification": "csv" } }
Para obtener más información acerca de las propiedades de una tabla, como StorageDescriptor
, consulte StorageDescriptor estructura.
Para cambiar el esquema de una tabla, elija Edit schema (Editar esquema) para añadir y quitar columnas, cambiar nombres de columna y cambiar tipos de datos.
Para comparar diferentes versiones de una tabla, incluido su esquema, elija Comparar versiones para ver una side-by-side comparación de dos versiones del esquema de una tabla. Para obtener más información, consulte Comparación de las versiones del esquema de la tabla .
Para mostrar los archivos que componen una partición de Amazon S3, elija View partition (Ver partición). Para las tablas de Amazon S3, la columna Key (Clave) muestra las claves de partición que se usan para particionar la tabla en el almacén de datos de origen. La creación de particiones es una forma de dividir una tabla en partes relacionadas según los valores de una columna de clave, tales como fecha, ubicación o departamento. Para obtener más información acerca de las particiones, busque en Internet información acerca de la "creación de particiones Hive".
nota
Para obtener step-by-step instrucciones sobre cómo ver los detalles de una tabla, consulte el tutorial Explore tablas de la consola.
Comparación de las versiones del esquema de la tabla
Cuando compara dos versiones de esquemas de tablas, puede comparar los cambios en las filas anidadas al expandir y contraer las filas anidadas, puede comparar los esquemas de dos versiones side-by-side y ver las propiedades de las tablas side-by-side.
Para comparar las versiones
-
En la consola de AWS Glue, seleccione Tablas, Acciones y, a continuación, elija Comparar versiones.
-
Elija una versión para comparar mediante el menú desplegable de versiones. Cuando compare esquemas, la pestaña Esquema aparece resaltada en naranja.
-
Cuando compare tablas entre dos versiones, los esquemas de las tablas se muestran en la parte izquierda y derecha de la pantalla. Esto le permite visualizar los cambios al comparar los campos de Nombre de columna, tipo de datos, clave y comentario side-by-side. Cuando se produce un cambio, aparece un icono de color que muestra el tipo de cambio realizado.
-
Eliminada: se muestra un icono rojo que indica dónde se quitó la columna de una versión anterior del esquema de la tabla.
-
Editada o movida: se muestra un icono azul que indica dónde se modificó o movió la columna en una versión más reciente del esquema de la tabla.
-
Agregado: se muestra un icono verde que indica dónde se agregó una columna a una versión más reciente del esquema de la tabla.
-
Cambios anidados: se muestra un icono amarillo que indica dónde contiene cambios la columna anidada. Elija la columna para expandirla y ver las columnas que se eliminaron, editaron, movieron o agregaron.
-
-
Utilice la barra de búsqueda de campos filtrados para mostrar los campos en función de los caracteres que introduzca aquí. Si introduce un nombre de columna en cualquier versión de la tabla, los campos filtrados se muestran en ambas versiones de la tabla para mostrarle dónde se produjeron los cambios.
-
Para comparar propiedades, elija la pestaña de Propiedades.
-
Para detener la comparación de versiones, elija Detener comparación para volver a la lista de tablas.