Puede ejecutar la tarea de estadísticas de columnas para la tarea de AWS Glue Data Catalog tablas a pedido sin una programación establecida. Esta opción resulta útil para el análisis ad hoc o cuando es necesario calcular las estadísticas de forma inmediata.
Siga estos pasos para generar estadísticas de columnas bajo demanda para las tablas del catálogo de datos mediante la AWS Glue consola o AWS CLI.
Generación de estadísticas de columnas mediante la consola
-
Inicie sesión en la AWS Glue consola en https://console.aws.amazon.com/glue/
. -
Seleccione las tablas del Data Catalog.
-
Seleccione una tabla de la lista.
-
Seleccione Generar estadísticas en el menú Acciones.
También puede elegir la opción Generar o generar bajo demanda en la pestaña de estadísticas de columnas, en la sección inferior de la página de la tabla.
Siga los pasos 7 a 11 de la sección Generación de estadísticas de columnas según un cronograma para generar estadísticas de columna para la tabla.
-
En la página Generar estadísticas, especifique las siguientes opciones:
-
Todas las columnas: elija esta opción para generar estadísticas para todas las columnas de la tabla.
-
Columnas seleccionadas: elija esta opción para generar estadísticas para columnas específicas. Puede seleccionar las columnas en la lista desplegable.
-
IAMrol: elija Crear un nuevo IAM rol que tenga las políticas de permisos necesarias para ejecutar la tarea de generación de estadísticas de columnas. Elija Ver detalles del permiso para revisar la declaración de la política. También puede seleccionar un IAM rol de la lista. Para obtener más información sobre los permisos necesarios, consulte Requisitos previos para generar estadísticas de columnas.
AWS Glue asume los permisos del rol que especifique para generar estadísticas.
Para obtener más información sobre cómo proporcionar funciones AWS Glue, consulte Políticas basadas en la identidad para. AWS Glue.
-
(Opcional) A continuación, elija una configuración de seguridad para habilitar el cifrado en reposo de los registros.
-
Filas de muestra: elija solo un porcentaje específico de filas de la tabla para generar estadísticas. El valor predeterminado es Todas las filas. Utilice las flechas hacia arriba y hacia abajo para aumentar o disminuir el valor porcentual.
nota
Se recomienda incluir todas las filas de la tabla para calcular estadísticas precisas. Utilice filas de muestra para generar estadísticas de columnas solo cuando los valores aproximados sean aceptables.
Elija Generar estadísticas para ejecutar la tarea.
-
Actualización de las estadísticas de las columnas a petición
Mantener las estadísticas de las up-to-date columnas es fundamental para que el optimizador de consultas genere planes de ejecución eficientes, lo que garantiza un mejor rendimiento de las consultas, una reducción del consumo de recursos y un mejor rendimiento general del sistema. Este proceso es especialmente importante después de cambios importantes en los datos, como cargas masivas o modificaciones exhaustivas, que pueden hacer que las estadísticas existentes queden obsoletas.
Debe ejecutar explícitamente la tarea Generar estadísticas desde la AWS Glue consola para actualizar las estadísticas de la columna. El catálogo de datos no actualiza automáticamente las estadísticas.
Si no utiliza AWS Glue la función de generación de estadísticas de la consola, puede actualizar manualmente las estadísticas de las columnas mediante la UpdateColumnStatisticsForTableAPIoperación o AWS CLI. En el siguiente ejemplo, se muestra cómo actualizar las estadísticas de las columnas mediante AWS CLI.
aws glue update-column-statistics-for-table --cli-input-json: { "CatalogId": "
111122223333
", "DatabaseName": "database_name
", "TableName": "table_name
", "ColumnStatisticsList": [ { "ColumnName": "col1
", "ColumnType": "Boolean", "AnalyzedTime": "1970-01-01T00:00:00", "StatisticsData": { "Type": "BOOLEAN", "BooleanColumnStatisticsData": { "NumberOfTrues": 5, "NumberOfFalses": 5, "NumberOfNulls": 0 } } } ] }