Utilizzo delle tabelle Apache Iceberg con Amazon Redshift - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo delle tabelle Apache Iceberg con Amazon Redshift

Questo argomento descrive come utilizzare le tabelle in formato Apache Iceberg con Redshift Spectrum o Redshift Serverless. Apache Iceberg è un formato ad alte prestazioni per tabelle analitiche di grandi dimensioni.

È possibile utilizzare Redshift Spectrum o Redshift Serverless per interrogare le tabelle Apache Iceberg catalogate nel AWS Glue Data Catalog. Apache Iceberg è un formato di tabella open source per data lake. Per ulteriori informazioni, consulta Apache Iceberg nella documentazione di Apache Iceberg.

Amazon Redshift fornisce coerenza transazionale per l'interrogazione delle tabelle Apache Iceberg. Puoi manipolare i dati nelle tue tabelle utilizzando servizi conformi ACID (atomicità, coerenza, isolamento, durabilità) come Amazon Athena e Amazon durante l'esecuzione di EMR query con Amazon Redshift. Amazon Redshift può utilizzare le statistiche delle tabelle archiviate nei metadati di Apache Iceberg per ottimizzare i piani di query e ridurre le scansioni dei file durante l'elaborazione delle query. Con Amazon RedshiftSQL, puoi unire le tabelle Redshift alle tabelle dei data lake.

Per iniziare a usare le tabelle Iceberg con Amazon Redshift:

  1. Crea una tabella Apache Iceberg su un AWS Glue Data Catalog database che utilizza un servizio compatibile come Amazon Athena o Amazon. EMR Per creare una tabella Iceberg usando Athena, vedi Utilizzo delle tabelle Apache Iceberg nella Guida per l'utente di Amazon Athena.

  2. Crea un cluster Amazon Redshift o un gruppo di lavoro Serverless Redshift con un IAM ruolo associato che consente l'accesso al tuo data lake. Per informazioni su come creare cluster o gruppi di lavoro, consulta la sezione Introduzione ai data warehouse con provisioning di Amazon Redshift e Guida introduttiva ai data warehouse Serverless Redshift nella Guida introduttiva di Amazon Redshift.

  3. Connect al cluster o al gruppo di lavoro utilizzando l'editor di query v2 o un client di terze partiSQL. Per informazioni su come connettersi utilizzando l'editor di query v2, consulta Connessione a un data warehouse Amazon Redshift SQL utilizzando strumenti client nella Amazon Redshift Management Guide.

  4. Crea uno schema esterno nel database Amazon Redshift per uno specifico database del Catalogo dati che include le tabelle Iceberg. Per informazioni sulla creazione di uno schema esterno, consulta Schemi esterni in Amazon Redshift Spectrum.

  5. Esegui SQL query per accedere alle tabelle Iceberg nello schema esterno che hai creato.

Considerazioni sull'utilizzo delle tabelle Apache Iceberg con Amazon Redshift

Quando utilizzi Amazon Redshift con le tabelle Iceberg, considera quanto segue:

  • Supporto per la versione Iceberg: Amazon Redshift supporta l'esecuzione di query sulle seguenti versioni delle tabelle Iceberg:

    • Versione 1 che definisce la modalità di gestione delle tabelle analitiche di grandi dimensioni utilizzando file di dati immutabili.

    • Versione 2 che aggiunge la possibilità di supportare l'aggiornamento e l'eliminazione a livello di riga mantenendo invariati i file di dati esistenti e gestendo le modifiche ai dati della tabella utilizzando i file di eliminazione.

    Per la differenza tra le tabelle v1 e v2, consulta Modifiche al tipo di formato nella documentazione di Apache Iceberg.

  • Solo query: Amazon Redshift supporta l'accesso in sola lettura alle tabelle Apache Iceberg. Supporta query di selezione coerenti a livello transazionale. Puoi utilizzare un servizio come Amazon Athena per definire e aggiornare lo schema delle tabelle Iceberg nel AWS Glue Data Catalog.

  • Aggiungere partizioni: non è necessario aggiungere manualmente le partizioni per le tabelle Apache Iceberg. Le nuove partizioni nelle tabelle Apache Iceberg vengono rilevate automaticamente da Amazon Redshift e non è necessaria alcuna operazione manuale per aggiornare le partizioni nella definizione della tabella. Eventuali modifiche alle specifiche della partizione vengono inoltre applicate automaticamente alle richieste senza alcun intervento da parte dell'utente.

  • Ingestione dei dati Iceberg in Amazon Redshift: puoi utilizzare i comandi INSERT INTO or CREATE TABLE AS per importare dati dalla tua tabella Iceberg in una tabella Amazon Redshift locale. Al momento non è possibile utilizzare il COPY comando per importare il contenuto di una tabella Apache Iceberg in una tabella Amazon Redshift locale.

  • Viste materializzate: puoi creare le viste materializzate nelle tabelle Apache Iceberg come faresti per qualsiasi altra tabella esterna in Amazon Redshift. Le stesse considerazioni per altri formati di tabelle di data lake si applicano alle tabelle Apache Iceberg. Gli aggiornamenti incrementali, gli aggiornamenti automatici, la riscrittura automatica delle query e le tabelle automatiche MVs su data lake non sono attualmente supportati.

  • AWS Lake Formation controllo granulare degli accessi: Amazon Redshift supporta AWS Lake Formation controllo granulare degli accessi sulle tabelle Apache Iceberg.

  • Parametri di gestione dei dati definiti dall'utente: Amazon Redshift supporta parametri di gestione dei dati definiti dall'utente nelle tabelle Apache Iceberg. Si utilizzano parametri di gestione dei dati definiti dall'utente sui file esistenti per personalizzare i dati interrogati in tabelle esterne ed evitare errori di scansione. Questi parametri forniscono funzionalità per gestire le discrepanze tra lo schema della tabella e i dati effettivi sui file. È possibile utilizzare parametri di gestione dei dati definiti dall'utente anche nelle tabelle Apache Iceberg.

  • Condivisione dei dati: la condivisione dei dati di Amazon Redshift attualmente non supporta le tabelle data lake, incluse le tabelle Apache Iceberg.

  • Domande sui viaggi nel tempo: le query sui viaggi nel tempo non sono attualmente supportate con le tabelle Apache Iceberg.

  • Prezzi: quando accedi alle tabelle Iceberg da un cluster, ti vengono addebitati i prezzi di Redshift Spectrum. Quando accedi alle tabelle Iceberg da un gruppo di lavoro, ti vengono addebitati i prezzi di Redshift serverless. Per ulteriori informazioni sui prezzi di Redshift Spectrum e Redshift Serverless, consulta Prezzi di Amazon Redshift.