Habilitar Iceberg Ejemplo: escribir Iceberg Ejemplo: leer Iceberg Ejemplo: insertar en una tabla de Iceberg Ejemplo: leer una tabla de Iceberg con Spark Ejemplo: Lea y escriba una tabla de iceberg con el control de permisos de Lake Formation

Uso del marco de Iceberg en AWS Glue

AWS Glue 3.0 y versiones posteriores son compatibles con el marco de Apache Iceberg para lagos de datos. Iceberg proporciona un formato de tabla de alto rendimiento que funciona igual que una tabla SQL. En este tema, se describen las características disponibles para usar los datos en AWS Glue al transportar o almacenar datos en una tabla de Iceberg. Para más información sobre Iceberg, consulte la documentación oficial de Apache Iceberg.

Puede usar AWS Glue para llevar a cabo operaciones de lectura y escritura en tablas de Iceberg en Amazon S3, o trabajar con tablas de Iceberg mediante el Catálogo de datos de AWS Glue. También se admiten operaciones adicionales, como insertar, y todas las consultas de Spark escrituras de Spark. La actualización no es compatible con las tablas de Iceberg.

nota

ALTER TABLE … RENAME TO no está disponible para Apache Iceberg 0.13.1 para AWS Glue 3.0.

La siguiente tabla muestra la versión de Iceberg que se incluye en cada versión de AWS Glue.

Versión de AWS Glue	Versión de Iceberg compatible
5.0	1.7.1
4.0	1.0.0
3.0	0.13.1

Para más información sobre los marcos de lagos de datos compatibles con AWS Glue, consulte Uso de marcos de lagos de datos con trabajos de ETL de AWS Glue.

Habilitar el marco de Iceberg

Para habilitar Iceberg para AWS Glue, haga las siguientes tareas:

Especifique iceberg como valor para el parámetro del trabajo --datalake-formats. Para obtener más información, consulte Uso de los parámetros de trabajo en los trabajos de AWS Glue.
Cree una clave con el nombre --conf para el trabajo de AWS Glue y establézcala en el siguiente valor. Como alternativa, puede establecer la siguiente configuración mediante SparkConf en su script. Esta configuración ayuda a Apache Spark a gestionar correctamente las tablas de Iceberg.
```
spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions 
--conf spark.sql.catalog.glue_catalog=org.apache.iceberg.spark.SparkCatalog 
--conf spark.sql.catalog.glue_catalog.warehouse=s3://<your-warehouse-dir>/ 
--conf spark.sql.catalog.glue_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog 
--conf spark.sql.catalog.glue_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO
```
Si lee o escribe en tablas de Iceberg registradas en Lake Formation, siga las indicaciones que aparecen en Uso de AWS Glue con AWS Lake Formation para obtener un control de acceso detallado en AWS Glue 5.0 y versiones posteriores. En AWS Glue 4.0, agregue la siguiente configuración para habilitar la compatibilidad con Lake Formation.
```
--conf spark.sql.catalog.glue_catalog.glue.lakeformation-enabled=true
--conf spark.sql.catalog.glue_catalog.glue.id=<table-catalog-id>
```
Si utiliza AWS Glue 3.0 con Iceberg 0.13.1, debe establecer las siguientes configuraciones adicionales para utilizar el administrador de bloqueos de Amazon DynamoDB y garantizar la transacción atómica. AWS Glue 4.0 y versiones posteriores utilizan el bloqueo positivo de forma predeterminada. Para obtener más información, consulte Iceberg AWS Integrations en la documentación oficial de Apache Iceberg.
```
--conf spark.sql.catalog.glue_catalog.lock-impl=org.apache.iceberg.aws.glue.DynamoLockManager 
--conf spark.sql.catalog.glue_catalog.lock.table=<your-dynamodb-table-name>
```

Usar una versión diferente de Iceberg

Para usar una versión de Iceberg que no sea compatible con AWS Glue, indique sus propios archivos JAR de Iceberg mediante el parámetro de trabajo --extra-jars. No incluya iceberg como valor para el parámetro --datalake-formats. Si usa AWS Glue 5.0, debe configurar el parámetro de trabajo --user-jars-first true.

Habilitar el cifrado para tablas de Iceberg

nota

Las tablas de Iceberg tienen sus propios mecanismos para habilitar el cifrado del lado del servidor. Debe habilitar esta configuración además de la configuración de seguridad de Glue AWS.

Para habilitar el cifrado del lado del servidor en las tablas de Iceberg, consulte las instrucciones de la documentación de Iceberg.

Agregue la configuración de Spark para el acceso entre regiones de Iceberg

Para añadir una configuración adicional de Spark para el acceso a tablas entre regiones de Iceberg con el catálogo de datos de AWS Glue y AWS Lake Formation, siga los pasos que se indican a continuación:

Creación de un punto de acceso de varias regiones.

Defina las siguientes propiedades de Spark:


-----
    --conf spark.sql.catalog.my_catalog.s3.use-arn-region-enabled=true \
    --conf spark.sql.catalog.{CATALOG}.s3.access-points.bucket1", "arn:aws:s3::<account-id>:accesspoint/<mrap-id>.mrap \
    --conf spark.sql.catalog.{CATALOG}.s3.access-points.bucket2", "arn:aws:s3::<account-id>:accesspoint/<mrap-id>.mrap
-----

Ejemplo: escriba una tabla de Iceberg en Amazon S3 y regístrela en el Catálogo de datos de AWS Glue

En este script de ejemplo, se muestra cómo escribir una tabla de Iceberg en Amazon S3. En el ejemplo se usan integraciones de AWS de Iceberg para registrar la tabla en el Catálogo de datos de AWS Glue.

Como alternativa, puede escribir una tabla de Iceberg en Amazon S3 y en el Catálogo de datos con los métodos de Spark.

Requisitos previos: deberá disponer de un catálogo para su uso en la biblioteca Iceberg. Cuando se utiliza el AWS catálogo de datos de Glue AWS, Glue lo simplifica. El catálogo de datos de Glue AWS está preconfigurado para que lo utilicen las bibliotecas de Spark como glue_catalog. Las tablas del catálogo de datos se identifican mediante un databaseName y un tableName. Para obtener más información sobre el catálogo de datos de Glue AWS, consulte Detección y catalogación de datos en AWS Glue.

Si no utiliza el catálogo de datos de Glue AWS, tendrá que aprovisionar un catálogo a través de las API de Spark. Para obtener más información, consulte Configuración de Spark en la documentación de Iceberg.

En este ejemplo, se escribe una tabla de Iceberg en Amazon S3 y el Catálogo de datos con Spark.

Ejemplo: leer una tabla de Iceberg de Amazon S3 con el Catálogo de datos de AWS Glue

En este ejemplo, se lee la tabla de Iceberg que creó en Ejemplo: escriba una tabla de Iceberg en Amazon S3 y regístrela en el Catálogo de datos de AWS Glue.

Ejemplo: insertar un `DataFrame` en una tabla de Iceberg de Amazon S3 con el Catálogo de datos de AWS Glue

En este ejemplo, se insertan los datos en la tabla de Iceberg que creó en Ejemplo: escriba una tabla de Iceberg en Amazon S3 y regístrela en el Catálogo de datos de AWS Glue.

nota

En este ejemplo, se requiere que establezca el parámetro de trabajo de --enable-glue-datacatalog para utilizar el Catálogo de datos de AWS Glue como metaalmacén de Apache Spark Hive. Para obtener más información, consulte Uso de los parámetros de trabajo en los trabajos de AWS Glue.

Ejemplo: leer una tabla de Iceberg de Amazon S3 con Spark

En este ejemplo, se lee una tabla de Iceberg en Amazon S3 del catálogo de datos con Spark.

Ejemplo: Lea y escriba una tabla de iceberg con el control de permisos de Lake Formation

En este ejemplo se lee y escribe una tabla de Iceberg con el control de permisos de Lake Formation.

nota

Este ejemplo solo funciona en AWS Glue 4.0. En AWS Glue 5.0 y versiones posteriores, siga las indicaciones que aparece en Uso de AWS Glue con AWS Lake Formation para obtener un control de acceso detallado.

Cree una tabla de iceberg y regístrela en Lake Formation:
1. Para habilitar el control de permisos de Lake Formation, primero tendrá que registrar la tabla de la ruta Amazon S3 en Lake Formation. Para obtener más información, consulte Registro de una ubicación de Amazon S3. Puede registrarlo desde la consola de Lake Formation o mediante la AWS CLI:
```
aws lakeformation register-resource --resource-arn arn:aws:s3:::<s3-bucket>/<s3-folder> --use-service-linked-role --region <REGION>
```
  Una vez que registre una ubicación de Amazon S3, cualquier tabla de AWS Glue que apunte a la ubicación (o a cualquiera de sus ubicaciones secundarias) devolverá el valor del parámetro IsRegisteredWithLakeFormation como verdadero en la llamada GetTable.
2. Cree una tabla de Iceberg que apunte a la ruta registrada mediante Spark SQL:
  
  nota
  A continuación, se muestran algunos ejemplos de Python.
```
dataFrame.createOrReplaceTempView("tmp_<your_table_name>")

query = f"""
CREATE TABLE glue_catalog.<your_database_name>.<your_table_name>
USING iceberg
AS SELECT * FROM tmp_<your_table_name>
"""
spark.sql(query)
```
  También puede crear la tabla manualmente mediante la API de AWS Glue.CreateTable Para obtener más información, consulte Creación de tablas de Apache Iceberg.
  
  nota
  Actualmente, la API UpdateTable no es compatible con el formato de tabla Iceberg como entrada para la operación.
Conceda permiso a Lake Formation para el rol de IAM. Puede conceder permisos desde la consola de Lake Formation o mediante la AWS CLI. Para obtener más información, consulte: https://docs.aws.amazon.com/lake-formation/latest/dg/granting-table-permissions.html

Lea una tabla de Iceberg registrada en Lake Formation. El código es el mismo que leer una tabla de Icebergs no registrada. Tenga en cuenta que el rol de IAM de su trabajo de AWS Glue debe tener el permiso SELECT para que la lectura se realice correctamente.


# Example: Read an Iceberg table from the AWS Glue Data Catalog
from awsglue.context import GlueContextfrom pyspark.context import SparkContext

sc = SparkContext()
glueContext = GlueContext(sc)

df = glueContext.create_data_frame.from_catalog(
    database="<your_database_name>",
    table_name="<your_table_name>",
    additional_options=additional_options
)

Escriba en una tabla de Iceberg registrada en Lake Formation. El código es el mismo que escribir en una tabla Iceberg no registrada. Tenga en cuenta que su rol de IAM del trabajo de AWS Glue debe tener el permiso SUPER para que la escritura se realice correctamente.
```
glueContext.write_data_frame.from_catalog(
    frame=dataFrame,
    database="<your_database_name>",
    table_name="<your_table_name>",
    additional_options=additional_options
)
```

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Delta Lake

Soporte de Data Catalog para trabajos de Spark SQL

Uso del marco de Iceberg en AWS Glue

nota

Habilitar el marco de Iceberg

nota

Ejemplo: escriba una tabla de Iceberg en Amazon S3 y regístrela en el Catálogo de datos de AWS Glue

Ejemplo: leer una tabla de Iceberg de Amazon S3 con el Catálogo de datos de AWS Glue

Ejemplo: insertar un DataFrame en una tabla de Iceberg de Amazon S3 con el Catálogo de datos de AWS Glue

nota

Ejemplo: leer una tabla de Iceberg de Amazon S3 con Spark

Ejemplo: Lea y escriba una tabla de iceberg con el control de permisos de Lake Formation

nota

nota

nota

Ejemplo: insertar un `DataFrame` en una tabla de Iceberg de Amazon S3 con el Catálogo de datos de AWS Glue