Considerazioni sull'utilizzo delle tabelle Apache Iceberg

Utilizzo delle tabelle Apache Iceberg con Amazon Redshift

Nota

Per ottenere le migliori prestazioni quando usi le tabelle Apache Iceberg con Amazon Redshift, devi generare statistiche sulle colonne per le tabelle che utilizzano. AWS GluePer ulteriori informazioni, consulta Generazione di statistiche sulle colonne per le tabelle Iceberg nella Guida per gli sviluppatori.AWS Glue

Questo argomento descrive come utilizzare le tabelle in formato Apache Iceberg con Redshift Spectrum o Redshift Serverless. Apache Iceberg è un formato ad alte prestazioni per tabelle analitiche di grandi dimensioni.

È possibile utilizzare Redshift Spectrum o Redshift Serverless per interrogare le tabelle di Apache Iceberg catalogate in AWS Glue Data Catalog. Apache Iceberg è un formato di tabella open source per data lake. Per ulteriori informazioni, consulta Apache Iceberg nella documentazione di Apache Iceberg.

Amazon Redshift fornisce coerenza transazionale per l'interrogazione delle tabelle Apache Iceberg. Puoi manipolare i dati nelle tue tabelle utilizzando servizi conformi ad ACID (atomicità, consistenza, isolamento, durabilità) come Amazon Athena e Amazon EMR mentre esegui query utilizzando Amazon Redshift. Amazon Redshift può utilizzare le statistiche delle tabelle archiviate nei metadati di Apache Iceberg per ottimizzare i piani di query e ridurre le scansioni dei file durante l'elaborazione delle query. Con Amazon Redshift SQL, puoi unire tabelle Redshift con tabelle data lake.

Per iniziare a usare le tabelle Iceberg con Amazon Redshift:

Crea una tabella Apache Iceberg su un AWS Glue Data Catalog database utilizzando un servizio compatibile come Amazon Athena o Amazon EMR. Per creare una tabella Iceberg usando Athena, vedi Utilizzo delle tabelle Apache Iceberg nella Guida per l'utente di Amazon Athena.
Crea un cluster Amazon Redshift o un gruppo di lavoro Redshift Serverless con un ruolo IAM associato che consenta l'accesso al tuo data lake. Per informazioni su come creare cluster o gruppi di lavoro, consulta la sezione Introduzione ai data warehouse con provisioning di Amazon Redshift e Guida introduttiva ai data warehouse Serverless Redshift nella Guida introduttiva di Amazon Redshift.
Connettiti al tuo cluster o gruppo di lavoro utilizzando l'editor di query v2 o un client SQL di terze parti. Per informazioni su come connettersi utilizzando l'editor di query v2, consulta Connessione a un data warehouse Amazon Redshift utilizzando gli strumenti client SQL nella Amazon Redshift Management Guide.
Crea uno schema esterno nel database Amazon Redshift per uno specifico database del Catalogo dati che include le tabelle Iceberg. Per informazioni sulla creazione di uno schema esterno, consulta Schemi esterni in Amazon Redshift Spectrum.
Esegui query SQL per accedere alle tabelle Iceberg nello schema esterno che hai creato.

Considerazioni sull'utilizzo delle tabelle Apache Iceberg con Amazon Redshift

Quando utilizzi Amazon Redshift con le tabelle Iceberg, considera quanto segue:

Supporto per la versione Iceberg: Amazon Redshift supporta l'esecuzione di query sulle seguenti versioni delle tabelle Iceberg:
- Versione 1 che definisce la modalità di gestione delle tabelle analitiche di grandi dimensioni utilizzando file di dati immutabili.
- Versione 2 che aggiunge la possibilità di supportare l'aggiornamento e l'eliminazione a livello di riga mantenendo invariati i file di dati esistenti e gestendo le modifiche ai dati della tabella utilizzando i file di eliminazione.
Per la differenza tra le tabelle v1 e v2, consulta Modifiche al tipo di formato nella documentazione di Apache Iceberg.
Solo query: Amazon Redshift supporta l'accesso in sola lettura alle tabelle Apache Iceberg. Supporta query di selezione coerenti a livello transazionale. Puoi utilizzare un servizio come Amazon Athena per definire e aggiornare lo schema delle tabelle Iceberg in AWS Glue Data Catalog.
Aggiungere partizioni: non è necessario aggiungere manualmente le partizioni per le tabelle Apache Iceberg. Le nuove partizioni nelle tabelle Apache Iceberg vengono rilevate automaticamente da Amazon Redshift e non è necessaria alcuna operazione manuale per aggiornare le partizioni nella definizione della tabella. Eventuali modifiche alle specifiche della partizione vengono inoltre applicate automaticamente alle richieste senza alcun intervento da parte dell'utente.
Inserimento di dati Iceberg in Amazon Redshift: puoi utilizzare i comandi INSERT INTO o CREATE TABLE AS per importare dati dalla tua tabella Iceberg in una tabella Amazon Redshift locale. Al momento non è possibile utilizzare il comando COPY per inserire il contenuto di una tabella Apache Iceberg in una tabella Amazon Redshift locale.
Viste materializzate: puoi creare le viste materializzate nelle tabelle Apache Iceberg come faresti per qualsiasi altra tabella esterna in Amazon Redshift. Le stesse considerazioni per altri formati di tabelle di data lake si applicano alle tabelle Apache Iceberg. Gli aggiornamenti automatici, la riscrittura automatica delle query e le tabelle automatiche MVs su data lake non sono attualmente supportati.
AWS Lake Formation controllo granulare degli accessi: Amazon Redshift supporta il controllo AWS Lake Formation granulare degli accessi sulle tabelle Apache Iceberg.
Parametri di gestione dei dati definiti dall'utente: Amazon Redshift supporta parametri di gestione dei dati definiti dall'utente nelle tabelle Apache Iceberg. Si utilizzano parametri di gestione dei dati definiti dall'utente sui file esistenti per personalizzare i dati interrogati in tabelle esterne ed evitare errori di scansione. Questi parametri forniscono funzionalità per gestire le discrepanze tra lo schema della tabella e i dati effettivi sui file. È possibile utilizzare parametri di gestione dei dati definiti dall'utente anche nelle tabelle Apache Iceberg.
Domande sui viaggi nel tempo: le query sui viaggi nel tempo non sono attualmente supportate con le tabelle Apache Iceberg.
Prezzi: quando accedi alle tabelle Iceberg da un cluster, ti vengono addebitati i prezzi di Redshift Spectrum. Quando accedi alle tabelle Iceberg da un gruppo di lavoro, ti vengono addebitati i prezzi di Redshift serverless. Per ulteriori informazioni sui prezzi di Redshift Spectrum e Redshift Serverless, consulta Prezzi di Amazon Redshift.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Tabelle esterna

Tipi di dati supportati