Habilitación de la optimización automática de tablas a nivel de catálogo
Puede habilitar la optimización automática de tablas para todas las tablas nuevas de Apache Iceberg en el Catálogo de datos. Tras crear la tabla, también puede actualizar de forma explícita y manual la configuración de la optimización de las tablas.
Para actualizar la configuración del Catálogo de datos y así poder habilitar las optimizaciones a nivel de catálogo, el rol de IAM que utiliza debe tener el permiso glue:UpdateCatalog
en el catálogo raíz. Puede utilizar la API GetCatalog
para verificar las propiedades del catálogo.
En el caso de las tablas gestionadas por Lake Formation, el rol de IAM seleccionado durante la configuración de la optimización del catálogo requiere los permisos ALTER
, DESCRIBE
, INSERT
, y DELETE
de Lake Formation para cualquier tabla nueva o actualizada.
-
Abra la consola de Lake Formation en https://console.aws.amazon.com/lakeformation/
. -
En el panel de navegación, seleccione Catálogo de datos.
-
Seleccione la pestaña Catálogos.
-
Elija el catálogo a nivel de la cuenta.
-
Seleccione Optimizaciones de tablas y Editar en la pestaña Optimizaciones de tablas. También puede seleccionar Editar optimizaciones en Acciones.
-
En la página Optimizaciones de tablas, configure las siguientes opciones:
-
Configure los ajustes de Compactación:
-
Habilite/deshabilite la compactación.
-
Elija el rol de IAM que tenga los permisos necesarios para ejecutar los optimizadores.
Para obtener más información sobre los permisos necesarios para el rol de IAM, consulte Requisitos previos para la optimización de tablas .
-
-
Configure los ajustes de Retención de instantáneas:
-
Habilite/deshabilite la retención.
-
Establezca el período de retención de instantáneas en días; el valor predeterminado es de 5 días.
-
Establezca el número de instantáneas que se deben retener; el valor predeterminado es de 1 instantánea.
-
Habilite/deshabilite la limpieza de archivos caducados.
-
-
Configure los ajustes de Eliminación de archivos huérfanos:
-
Habilite/deshabilite la eliminación de archivos huérfanos.
-
Establezca el período de retención de archivos huérfanos en días; el valor predeterminado es de 3 días.
-
-
-
Seleccione Save.
Utilice el siguiente comando de la CLI para actualizar un catálogo existente con ajustes del optimizador:
ejemplo Actualice el catálogo con la configuración del optimizador
aws glue update-catalog \ --name
catalog-id
\ --catalog-input \ '{ "CatalogId": "111122223333
", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333
:role/service-role/stats-role-name
" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333
:role/optimizer-role-name
", "Compaction": { "enabled": "true
" }, "Retention": { "enabled": "true
", "snapshotRetentionPeriodInDays": "10
", "numberOfSnapshotsToRetain": "5
", "cleanExpiredFiles": "true
" }, "OrphanFileDeletion": { "enabled": "true
", "orphanFileRetentionPeriodInDays": "3
" } } } } }'
Si tiene problemas con los optimizadores a nivel de catálogo, verifique lo siguiente:
-
Asegúrese de que el rol de IAM tenga los permisos correctos, tal como se describe en la sección Requisitos previos.
-
Revise los registros de CloudWatch para ver si hay algún mensaje de error relacionado con las operaciones del optimizador.
Para obtener más información, consulte Ver métricas disponibles en la Guía del usuario de Amazon CloudWatch.
-
Compruebe que la configuración del catálogo se haya aplicado correctamente; para ello, verifique la configuración del catálogo.
-
En el caso de errores de acceso a las tablas, consulte los registros de CloudWatch y las notificaciones de EventBridge para obtener información detallada sobre los errores.