Limites - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Limites

Tenez compte des limites suivantes avant d'utiliser des frameworks de lacs de données avec AWS Glue.

  • Les AWS Glue GlueContext méthodes suivantes DynamicFrame ne prennent pas en charge la lecture et l'écriture de tables du framework Data Lake. Utilisez plutôt les GlueContext méthodes pour DataFrame ou DataFrame l'API Spark.

    • Les GlueContext méthodes suivantes ne DynamicFrame sont pas prises en charge par le contrôle des autorisations de Lake Formation :

      • create_dynamic_frame.from_catalog

      • write_dynamic_frame.from_catalog

      • getDynamicFrame

      • writeDynamicFrame

    • Les GlueContext méthodes suivantes DataFrame sont prises en charge par le contrôle des autorisations de Lake Formation :

      • create_data_frame.from_catalog

      • write_data_frame.from_catalog

      • getDataFrame

      • writeDataFrame

  • Le regroupement de petits fichiers n'est pas pris en charge.

  • Les signets de tâche ne sont pas pris en charge.

  • Apache Hudi 0.10.1 pour AWS Glue 3.0 ne prend pas en charge les tables Hudi Merge on Read (MoR).

  • ALTER TABLE … RENAME TOn'est pas disponible pour Apache Iceberg 0.13.1 pour 3.0. AWS Glue

Limitations des tables au format de lac de données gérées par les autorisations de Lake Formation

Les formats de lac de données sont intégrés à l' AWS Glue ETL via les autorisations Lake Formation. La création d'un DynamicFrame utilisateur n'create_dynamic_frameest pas prise en charge. Pour plus d’informations, consultez les exemples suivants :

Note

L'intégration avec les autorisations AWS Glue ETL via Lake Formation pour Apache Hudi, Apache Iceberg et Delta Lake n'est prise en charge que dans la AWS Glue version 4.0.

Apache Iceberg offre la meilleure intégration avec l' AWS Glue ETL via les autorisations Lake Formation. Il prend en charge presque toutes les opérations et inclut la prise en charge de SQL.

Hudi prend en charge la plupart des opérations de base à l'exception des opérations administratives. C'est parce que ces options sont généralement effectuées via l'écriture de dataframes et spécifiées via additional_options. Vous devez utiliser des AWS Glue API DataFrames pour créer pour vos opérations car SparkSQL n'est pas pris en charge.

Delta Lake prend uniquement en charge la lecture, l'ajout et le remplacement de données de table. Delta Lake nécessite l'utilisation de ses propres bibliothèques pour pouvoir effectuer diverses tâches telles que les mises à jour.

Les fonctionnalités suivantes ne sont pas disponibles pour les tables Iceberg gérées par les autorisations de Lake Formation.

  • Compaction à l'aide AWS Glue de l'ETL

  • Support de Spark SQL via AWS Glue ETL

Les limites des tables Hudi gérées par les autorisations de Lake Formation sont les suivantes :

  • Suppression de fichiers orphelins

Les limites des tables Delta Lake gérées par les autorisations de Lake Formation sont les suivantes :

  • Toutes les fonctionnalités autres que l'insertion et la lecture à partir des tables de Delta Lake.