Interroga i dati in Amazon Athena o Amazon Redshift - Amazon DataZone

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Interroga i dati in Amazon Athena o Amazon Redshift

In Amazon DataZone, una volta che un abbonato ha accesso a una risorsa nel catalogo, può utilizzarla (eseguire query e analizzare) utilizzando Amazon Athena o Amazon Redshift query editor v2. Devi essere il proprietario o il collaboratore del progetto per completare questa attività. A seconda dei blueprint abilitati nel progetto, Amazon DataZone fornisce collegamenti ad Amazon Athena e/o all'editor di query Amazon Redshift v2 nel riquadro a destra della pagina del progetto nel portale dati.

  1. Vai all'URL del portale DataZone dati di Amazon e accedi utilizzando Single Sign-On (SSO) o le tue credenziali. AWS Se sei un DataZone amministratore Amazon, puoi accedere alla DataZone console Amazon all'indirizzo https://console.aws.amazon.com/datazone e accedere con il Account AWS luogo in cui è stato creato il dominio, quindi scegliere Open data portal.

  2. Nel portale DataZone dati di Amazon, scegli Browse Projects List, quindi trova e scegli il progetto in cui hai i dati che desideri analizzare.

  3. Se il blueprint Data Lake è abilitato su questo progetto, viene visualizzato un collegamento ad Amazon Athena nel pannello a destra della home page del progetto.

    Se il blueprint Data Warehouse è abilitato su questo progetto, nel pannello a destra della home page del progetto viene visualizzato un collegamento all'editor di query.

    Nota

    I blueprint sono definiti nel profilo di ambiente con cui viene creato un progetto.

Scegli il link Amazon Athena per aprire l'editor di query Amazon Athena in una nuova scheda del browser utilizzando le credenziali del progetto per l'autenticazione. Il DataZone progetto Amazon a cui stai lavorando viene selezionato automaticamente come gruppo di lavoro corrente nell'editor di query.

Nell'editor di query di Amazon Athena, scrivi ed esegui le tue query. Alcune attività comuni includono:

Interroga e analizza gli asset sottoscritti

Se l'accesso alle risorse a cui è sottoscritto il tuo progetto non viene concesso automaticamente da Amazon DataZone, devi essere autorizzato ad accedere ai dati sottostanti. Per ulteriori informazioni su come concedere l'accesso a queste risorse, consultaConcedi l'accesso agli abbonamenti approvati agli asset non gestiti.

Se l'accesso alle risorse a cui è sottoscritto il tuo progetto viene concesso automaticamente da Amazon DataZone, puoi eseguire query SQL sulle tabelle e vedere i risultati in Amazon Athena. Per ulteriori informazioni sull'uso di SQL in Amazon Athena, consulta il riferimento SQL per Athena.

Quando accedi all'editor di query di Amazon Athena dopo aver scelto il link Amazon Athena nel pannello a destra della home page del progetto, viene visualizzato un menu a discesa Progetto nell'angolo in alto a destra dell'editor di query di Amazon Athena e il contesto del progetto viene selezionato automaticamente.

Puoi visualizzare i seguenti database nel menu a discesa Database:

  • Un database di pubblicazione ({environmentname}_pub_db). Lo scopo di questo database è fornirti un ambiente in cui puoi produrre nuovi dati nel contesto del tuo progetto e quindi essere in grado di pubblicare questi dati nel DataZone catalogo Amazon. I proprietari e i collaboratori del progetto hanno accesso in lettura e scrittura a questo database. I visualizzatori del progetto hanno accesso solo in lettura a questo database.

  • Un database di sottoscrizioni ({environmentname}_sub_db). Lo scopo di questo database è condividere con te i dati a cui ti sei iscritto come membro del progetto nel DataZone catalogo Amazon e consentirti di interrogare tali dati.

Crea nuove tabelle

Se ti sei connesso a un bucket S3 esterno, puoi utilizzare Amazon Athena per interrogare e analizzare gli asset da un bucket Amazon S3 esterno. In questo scenario, Amazon DataZone non dispone delle autorizzazioni per concedere l'accesso diretto ai dati sottostanti nel bucket Amazon S3 esterno e i dati Amazon S3 esterni creati all'esterno del progetto non vengono gestiti automaticamente in Lake Formation e non possono essere gestiti da Amazon. DataZone Un'alternativa consiste nel copiare i dati dal bucket Amazon S3 esterno in una nuova tabella all'interno del bucket Amazon S3 del progetto utilizzando un'istruzione in Amazon Athena. CREATE TABLE Quando esegui una CREATE TABLE query in Amazon Athena, registri la tua tabella con. AWS Glue Data Catalog

Puoi specificare il percorso dei dati in Amazon S3, utilizzare la proprietà LOCATION, come illustrato nel seguente breve esempio:

CREATE EXTERNAL TABLE 'test_table'( ... ) ROW FORMAT ... STORED AS INPUTFORMAT ... OUTPUTFORMAT ... LOCATION 's3://bucketname/folder/'

Per ulteriori informazioni, consulta Table location in Amazon S3.

Crea una tabella dai risultati delle query (CTAS) da un bucket S3 esterno

Quando sottoscrivi una risorsa, l'accesso ai dati sottostanti è di sola lettura. Puoi usare Amazon Athena per creare una copia della tabella. In Amazon Athena, la A CREATE TABLE AS SELECT (CTAS) query crea una nuova tabella in Amazon Athena dai risultati di SELECT un'istruzione di un'altra query. Per informazioni sulla sintassi CTAS, consulta CREATE TABLE AS.

L'esempio seguente crea una tabella copiando tutte le colonne di una tabella:

CREATE TABLE new_table AS SELECT * FROM old_table;

Nella seguente variazione dello stesso esempio, l'istruzione SELECT comprende anche una clausola WHERE. In questo caso, la query seleziona solo le righe dalla tabella che soddisfano la clausola WHERE:

CREATE TABLE new_table AS SELECT * FROM old_table WHERE condition;

L'esempio seguente crea una nuova query che viene eseguita su un set di colonne da un'altra tabella:

CREATE TABLE new_table AS SELECT column_1, column_2, ... column_n FROM old_table;

Questa variazione dello stesso esempio crea una nuova tabella in base a colonne specifiche di più tabelle:

CREATE TABLE new_table AS SELECT column_1, column_2, ... column_n FROM old_table_1, old_table_2, ... old_table_n;

Queste tabelle appena create fanno ora parte del AWS Glue database dei tuoi progetti e possono essere rese individuabili da altri e condivise con altri DataZone progetti Amazon pubblicando i dati come risorsa nel catalogo Amazon DataZone.

Nel portale DataZone dati di Amazon, apri un ambiente che utilizza il modello di data warehouse. Scegli il link Amazon Redshift nel pannello a destra nella pagina dell'ambiente. Si apre una finestra di dialogo di conferma con i dettagli necessari per aiutarti a stabilire una connessione al cluster Amazon Redshift o al gruppo di lavoro Amazon Redshift Serverless del tuo ambiente nell'editor di query Amazon Redshift v2.0. Dopo aver identificato i dettagli necessari per stabilire la connessione, scegli il pulsante Apri Amazon Redshift. Questo apre l'editor di query Amazon Redshift v2.0 in una nuova scheda del browser utilizzando credenziali temporanee dell'ambiente Amazon. DataZone

Nell'editor di query, segui i passaggi seguenti a seconda che il tuo ambiente utilizzi un gruppo di lavoro Serverless Amazon Redshift o un cluster Amazon Redshift.

Per un gruppo di lavoro Serverless Amazon Redshift

  1. Nell'editor di query, identifica il gruppo di lavoro Amazon Redshift Serverless del tuo DataZone ambiente Amazon, fai clic con il pulsante destro del mouse e scegli Crea una connessione.

  2. Scegli Federated User per l'autenticazione.

  3. Fornisci il nome del database DataZone dell'ambiente Amazon.

  4. Scegli Crea connessione.

Per un cluster Amazon Redshift:

  1. Nell'editor di query, identifica il cluster Amazon Redshift del tuo DataZone ambiente Amazon, fai clic con il pulsante destro del mouse e scegli Crea una connessione.

  2. Seleziona Credenziali temporanee utilizzando la tua identità IAM per l'autenticazione.

  3. Se il metodo di autenticazione sopra indicato non è disponibile, apri le impostazioni dell'account selezionando il pulsante a forma di ingranaggio nell'angolo in basso a sinistra, scegli Autentica con credenziali IAM e salva. Questa è un' one-time-onlyimpostazione.

  4. Fornisci il nome del database DataZone dell'ambiente Amazon per creare la connessione.

  5. Scegli Crea connessione.

Ora puoi iniziare a eseguire query sulle tabelle e sulle viste all'interno del cluster Amazon Redshift o del gruppo di lavoro Amazon Redshift Serverless configurato per il tuo ambiente Amazon. DataZone

Tutte le tabelle o le viste di Amazon Redshift a cui ti sei abbonato sono collegate al cluster Amazon Redshift o al gruppo di lavoro Amazon Redshift Serverless configurato per l'ambiente. Puoi iscriverti alle tabelle e alle viste e pubblicare nuove tabelle e viste che crei nel cluster o nel database del tuo ambiente.

Ad esempio, prendiamo uno scenario in cui un ambiente è collegato a un cluster Amazon Redshift chiamato redshift-cluster-1 e a un database chiamato dev in quel cluster. Utilizzando il portale DataZone dati Amazon, puoi interrogare le tabelle e le viste che vengono aggiunte al tuo ambiente. Nella Analytics tools sezione nel riquadro a destra del portale dati, puoi scegliere il link Amazon Redshift per questo ambiente, che apre l'editor di query. Puoi quindi fare clic con il pulsante destro del mouse sul redshift-cluster-1 cluster e creare una connessione utilizzando credenziali temporanee utilizzando la tua identità IAM. Una volta stabilita la connessione, puoi vedere tutte le tabelle e le viste a cui il tuo ambiente ha accesso nel database di sviluppo.