Utilizzo AWS Lake Formation con Amazon EMR - AWS Lake Formation

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo AWS Lake Formation con Amazon EMR

Amazon EMR è una piattaforma cluster AWS gestita flessibile su cui puoi eseguire qualsiasi codice personalizzato su framework di big data supportati come Hadoop Map-Reduce, Spark, Hive, Presto, ecc. Le organizzazioni utilizzano Amazon anche EMR per eseguire applicazioni di elaborazione dati in batch e in streaming su un cluster altamente distribuito. Utilizzando Apache Spark su AmazonEMR, puoi eseguire trasformazioni di dati e codice personalizzato su database e tabelle le cui autorizzazioni sono gestite da Lake Formation.

Esistono tre opzioni per la distribuzione di AmazonEMR:

  • EMRsu EC2

  • EMRSenza server

  • Amazon EMR su EKS

Per ulteriori informazioni, consulta Integrare Amazon EMR con Lake Formation o Using EMR Serverless with AWS Lake Formation per un controllo granulare degli accessi

Support per i formati di tabelle transazionali

Le EMR versioni 6.15.0 e successive di Amazon includono il supporto per le autorizzazioni di controllo degli accessi a livello di tabella, riga, colonna e cella di Lake Formation sui formati di tabella Apache Hudi, Apache Iceberg e Delta Lake quando leggi e scrivi dati con Spark. SQL

Per le limitazioni, consulta Considerations for Amazon EMR with Lake Formation.

Formati di tabella supportati
Formato della tabella Descrizione e operazioni consentite Autorizzazioni Lake Formation supportate in Amazon EMR

Apache Hudi

Un formato di tabella aperta utilizzato per semplificare l'elaborazione incrementale dei dati e lo sviluppo di pipeline di dati.

Per un elenco delle operazioni supportate, consulta Apache Hudi e Lake Formation.

Amazon EMR supporta il controllo degli accessi a livello di tabella, riga, colonna e cella con Apache Hudi.

Apache Iceberg

Un formato di tabella aperta che gestisce grandi raccolte di file come tabelle.

Per un elenco delle operazioni supportate, consulta Apache Iceberg e Lake Formation.

Amazon EMR supporta il controllo degli accessi a livello di tabella, riga, colonna e cella con Apache Iceberg.

Linux Foundation Delta Lake

Delta Lake è un progetto open source che aiuta a implementare moderne architetture di data lake comunemente costruite su Amazon S3 o Hadoop Distributed File System (). HDFS

Per un elenco delle operazioni supportate, consulta Delta Lake and Lake Formation.

Amazon EMR supporta il controllo degli accessi a livello di tabella, riga, colonna e cella con le tabelle Delta Lake.

Risorse aggiuntive