Esecuzione di query sui dati esterni utilizzando Amazon Redshift Spectrum - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di query sui dati esterni utilizzando Amazon Redshift Spectrum

Mediante Amazon Redshift Spectrum, è possibile eseguire query e recuperare in modo efficace dati strutturati e semistrutturati dai file in Amazon S3 senza dover caricare i dati in tabelle Amazon Redshift. Le query di Redshift Spectrum vengono eseguite molto rapidamente su set di dati di grandi dimensioni grazie a un parallelismo massiccio. L'elaborazione viene eseguita principalmente nel livello di Redshift Spectrum e la maggior parte dei dati rimane in Amazon S3. Più cluster possono eseguire simultaneamente query sullo stesso set di dati in Amazon S3 senza la necessità di effettuare copie dei dati per ogni cluster.

Panoramica di Amazon Redshift Spectrum

Amazon Redshift Spectrum si trova su dei server Amazon Redshift dedicati indipendenti dal cluster. Amazon Redshift trasmette al livello Redshift Spectrum molte attività che richiedono un'importante capacità di calcolo, come l'aggregazione e il filtraggio di predicati. Le query di Redshift Spectrum utilizzano quindi una capacità di elaborazione del cluster molto inferiore rispetto alle altre query. Redshift Spectrum consente inoltre un dimensionamento intelligente. In base alle richieste delle query, Redshift può potenzialmente utilizzare migliaia di istanze per beneficiare dell'elaborazione MPP (Massive Parallel Processing).

Per creare le tabelle di Redshift Spectrum, è necessario definire la struttura dei file e registrare quest'ultimi come tabelle in un catalogo dati esterno. Il catalogo dati esterno può essere AWS Glue il catalogo dati fornito con Amazon Athena o il tuo metastore Apache Hive. È possibile creare e gestire le tabelle esterne da Amazon Redshift utilizzando comandi DDL (data definition language) o qualsiasi altro strumento che si connette al catalogo di dati esterno. Le modifiche al catalogo di dati esterno sono immediatamente disponibili per tutti i cluster Amazon Redshift.

Inoltre, se lo desideri, puoi partizionare le tabelle esterne in una o più colonne. Questa operazione può consentire di migliorare le prestazioni, Il miglioramento si verifica in quanto l'ottimizzatore di query di Amazon Redshift elimina le partizioni che non contengono dati per la query.

Dopo la definizione delle tabelle di Redshift Spectrum, è possibile sottoporle a query e join esattamente come con qualunque altra tabella Amazon Redshift. Redshift Spectrum non supporta le operazioni di aggiornamento sulle tabelle esterne. Puoi aggiungere tabelle Redshift Spectrum a più cluster Amazon Redshift e interrogare gli stessi dati su Amazon S3 da qualsiasi cluster nella stessa regione. AWS Quando si aggiornano i file di dati Amazon S3, i dati diventano immediatamente disponibili per query da qualsiasi cluster Amazon Redshift.

Il catalogo AWS Glue dati a cui accedi potrebbe essere crittografato per aumentare la sicurezza. Se il AWS Glue catalogo è crittografato, è necessaria la chiave AWS Key Management Service (AWS KMS) AWS Glue per accedere al AWS Glue catalogo. AWS Glue la crittografia del catalogo non è disponibile in tutte le AWS regioni. Per un elenco delle AWS regioni supportate, consulta Encryption and Secure Access AWS Glue nella AWS Glue Developer Guide.Per ulteriori informazioni sulla crittografia del catalogo AWS Glue dati, consulta Encrypting Your AWS Glue Data Catalog nella Guida per gli AWS Glue sviluppatori.

Nota

Non è possibile visualizzare i dettagli per le tabelle Redshift Spectrum che utilizzano le stesse risorse utilizzate per le tabelle Amazon Redshift standard come PG_TABLE_DEF, STV_TBL_PERM, PG_CLASS o information_schema. Se il tuo strumento di business intelligence o di analisi non riconosce le tabelle esterne Redshift Spectrum, configura l'applicazione per eseguire la query su SVV_EXTERNAL_TABLES e SVV_EXTERNAL_COLUMNS.

Regioni di Amazon Redshift Spectrum

Redshift Spectrum è disponibile Regioni AWS dove è disponibile Amazon Redshift, se non diversamente specificato nella documentazione specifica della regione. Per Regione AWS la disponibilità nelle aree commerciali, consulta Endpoints di servizio per l'API Redshift nel. Riferimenti generali di Amazon Web Services

Considerazioni su Amazon Redshift Spectrum

Quando si utilizza Amazon Redshift Spectrum, tenere in considerazione quanto segue:

  • Il cluster Amazon Redshift e il bucket Amazon S3 devono trovarsi nella stessa regione. AWS

  • Redshift Spectrum non supporta il routing VPC avanzato con i cluster con provisioning. Per accedere ai dati di Amazon S3 potrebbe essere necessario eseguire fasi di configurazioni aggiuntive. Per ulteriori informazioni, consulta Utilizzo di Redshift Spectrum con routing VPC avanzato nella Guida alla gestione di Amazon Redshift.

  • Redshift Spectrum supporta gli alias degli Access Point Amazon S3. Per ulteriori informazioni, consulta Utilizzo di un alias in stile bucket per il punto di accesso nella Guida dell'utente Amazon Simple Storage Service. Tuttavia, Redshift Spectrum non supporta VPC con alias dei punti di accesso Amazon S3. Per ulteriori informazioni, consulta Utilizzo di Redshift Spectrum con routing VPC avanzato nella Guida alla gestione di Amazon Redshift.

  • Non puoi eseguire operazioni di aggiornamento o eliminazione sulle tabelle esterne. Per creare una nuova tabella esterna nello schema specificato, puoi utilizzare CREATE EXTERNAL TABLE. Per ulteriori informazioni su CREATE EXTERNAL TABLE AS, consultare CREATE EXTERNAL TABLE. Per inserire i risultati di una query SELECT nelle tabelle esterne esistenti nei cataloghi esterni, puoi utilizzare INSERT (tabella esterna). Per ulteriori informazioni su INSERT (tabella esterna), consultare INSERT (tabella esterna).

  • A meno AWS Glue Data Catalog che tu non stia utilizzando uno abilitato per AWS Lake Formation, non puoi controllare le autorizzazioni degli utenti su una tabella esterna. Puoi invece concedere e revocare autorizzazioni per lo schema esterno. Per ulteriori informazioni su come lavorare con AWS Lake Formation, vedereUtilizzo di Redshift Spectrum con AWS Lake Formation.

  • Per eseguire le query di Redshift Spectrum, l'utente del database deve disporre dell'autorizzazione per creare tabelle temporanee nel database. L'esempio seguente concede l'autorizzazione temporanea per il database spectrumdb al gruppo di utenti spectrumusers.

    grant temp on database spectrumdb to group spectrumusers;

    Per ulteriori informazioni, consultare GRANT.

  • Quando utilizzi Athena Data Catalog o AWS Glue Data Catalog come archivio di metadati, consulta Quotas and Limits nella Amazon Redshift Management Guide.

  • Redshift Spectrum non supporta Amazon EMR con Kerberos.