Limitações - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Limitações

Considere as seguintes limitações antes de usar estruturas de data lake com o AWS Glue.

  • Os métodos do GlueContext do AWS Glue a seguir não são compatíveis com leitura e escrita em tabelas de estrutura de data lake. Em vez disso, use os métodos GlueContext da API do DataFrame ou Spark DataFrame.

    • create_dynamic_frame.from_catalog

    • write_dynamic_frame.from_catalog

    • getDynamicFrame

    • writeDynamicFrame

  • Os métodos GlueContext a seguir para DataFrame são compatíveis com o controle de permissão do Lake Formation:

    • create_data_frame.from_catalog

    • write_data_frame.from_catalog

    • getDataFrame

    • writeDataFrame

  • Agrupamento de arquivos pequenos não é compatível.

  • Marcadores de trabalho não são compatíveis.

  • O Apache Hudi 0.10.1 para AWS Glue 3.0 não é compatível com tabelas Merge on Read (MoR) do Hudi.

  • ALTER TABLE … RENAME TO não está disponível para o Apache Iceberg 0.13.1 para o AWS Glue 3.0.

Limitações para tabelas em formato de data lake gerenciadas pelas permissões do Lake Formation

Os formatos de data lake são integrados ao AWS Glue ETL por meio das permissões do Lake Formation. Não há suporte à criação de um DynamicFrame usando create_dynamic_frame. Para obter mais informações, veja os exemplos a seguir:

nota

A integração com o AWS Glue ETL por meio das permissões do Lake Formation para o Apache Hudi, o Apache Iceberg e o Delta Lake só é possível no AWS Glue versão 4.0.

O Apache Iceberg tem a melhor integração com o AWS Glue ETL por meio das permissões do Lake Formation. Ele é compatível com quase todas as operações e inclui suporte a SQL.

O Hudi é compatível com a maioria das operações básicas, com exceção de operações administrativas. Isso ocorre porque essas opções geralmente são feitas por meio da gravação de dataframes e especificadas via additional_options. Você precisa usar APIs do AWS Glue para criar DataFrames para suas operações, pois não há suporte ao SparkSQL.

O Delta Lake é compatível somente com leitura, anexação e substituição de dados da tabela. O Delta Lake exige o uso de suas próprias bibliotecas para poder realizar várias tarefas, como atualizações.

Os recursos a seguir não estão disponíveis para tabelas do Iceberg gerenciadas por permissões do Lake Formation.

  • Compactação usando o AWS Glue ETL

  • Suporte ao Spark SQL via AWS Glue ETL

A seguir estão as limitações das tabelas do Hudi gerenciadas por permissões do Lake Formation:

  • Remoção de arquivos órfãos

A seguir estão as limitações das tabelas do Data Lake gerenciadas por permissões do Lake Formation:

  • Todos os recursos, exceto inserir e ler das tabelas do Delta Lake.