Amazon DataZone quickstart con i dati di Amazon Redshift - Amazon DataZone

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon DataZone quickstart con i dati di Amazon Redshift

Fase 1: creare il DataZone dominio Amazon e il portale dati

Completa la seguente procedura per creare un DataZone dominio Amazon. Per ulteriori informazioni sui DataZone domini Amazon, consulta DataZone Terminologia e concetti di Amazon.

  1. Accedi alla DataZone console Amazon all'indirizzo https://console.aws.amazon.com/datazone, accedi e scegli Crea dominio.

    Nota

    Se desideri utilizzare un DataZone dominio Amazon esistente per questo flusso di lavoro, scegli Visualizza domini, quindi scegli il dominio che desideri utilizzare e quindi procedi alla Fase 2 della creazione di un progetto di pubblicazione.

  2. Nella pagina Crea dominio, fornisci i valori per i seguenti campi:

    • Nome: specifica un nome per il tuo dominio. Ai fini di questo flusso di lavoro, puoi chiamare questo dominioMarketing.

    • Descrizione: specifica una descrizione del dominio opzionale.

    • Crittografia dei dati: per impostazione predefinita, i dati vengono crittografati con una chiave che AWS possiede e gestisce per te. Per questa procedura dettagliata, puoi lasciare le impostazioni di crittografia dei dati predefinite.

      Per ulteriori informazioni sull'utilizzo delle chiavi gestite dai clienti, consulta. Crittografia dei dati a riposo per Amazon DataZone Se utilizzi la tua chiave KMS per la crittografia dei dati, devi includere la seguente dichiarazione come predefinitaAmazonDataZoneDomainExecutionRole.

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • Accesso al servizio: scegli l'opzione Usa un ruolo di servizio personalizzato, quindi scegli l'opzione AmazonDataZoneDomainExecutionRoledal menu a discesa.

    • In Configurazione rapida, scegli Configura questo account per il consumo e la pubblicazione dei dati. Questa opzione abilita i DataZone blueprint Amazon integrati di Data lake e Data warehouse e configura le autorizzazioni e le risorse necessarie per completare il resto dei passaggi di questo flusso di lavoro. Per ulteriori informazioni sui DataZone blueprint di Amazon, consulta DataZone Terminologia e concetti di Amazon.

    • Mantieni invariati i campi rimanenti in Informazioni sulle autorizzazioni e Tag, quindi scegli Crea dominio.

  3. Una volta creato correttamente il dominio, scegli questo dominio e, nella pagina di riepilogo del dominio, annota l'URL del portale dati relativo a questo dominio. Puoi utilizzare questo URL per accedere al tuo portale DataZone dati Amazon e completare il resto dei passaggi di questo flusso di lavoro.

Nota

Nell'attuale versione di Amazon DataZone, una volta creato il dominio, l'URL generato per il portale dati non può essere modificato.

Il completamento della creazione del dominio può richiedere diversi minuti. Attendi che lo stato del dominio sia Disponibile prima di procedere al passaggio successivo.

Fase 2 - Creare il progetto di pubblicazione

La sezione seguente descrive le fasi di creazione del progetto di pubblicazione in questo flusso di lavoro.

  1. Una volta completato il passaggio 1, accedi al portale DataZone dati Amazon utilizzando l'URL del portale dati e accedi utilizzando le tue credenziali Single Sign-On (SSO) o AWS IAM.

  2. Scegli Crea progetto, specifica il nome del progetto, ad esempio, per questo flusso di lavoro, puoi assegnargli un nome SalesDataPublishingProject, quindi lascia invariati gli altri campi e quindi scegli Crea.

Fase 3 - Creare l'ambiente

La sezione seguente descrive i passaggi per creare un ambiente in questo flusso di lavoro.

  1. Una volta completato il passaggio 2, nel portale DataZone dati Amazon, scegli il SalesDataPublishingProject progetto creato nel passaggio precedente, quindi scegli la scheda Ambienti e quindi scegli Crea ambiente.

  2. Nella pagina Crea ambiente, specifica quanto segue e poi scegli Crea ambiente.

    • Nome: specifica il nome dell'ambiente. Per questa procedura dettagliata, puoi chiamarla. Default data warehouse environment

    • Descrizione: specifica una descrizione per l'ambiente.

    • Profilo ambientale: scegli il profilo DataWarehouseProfiledell'ambiente.

    • Fornisci il nome del cluster Amazon Redshift, il nome del database e l'ARN segreto per il cluster Amazon Redshift in cui sono archiviati i dati.

      Nota

      Assicurati che il tuo segreto in AWS Secrets Manager includa i seguenti tag (chiave/valore):

      • Per il cluster Amazon Redshift - datazone.rs.cluster: <cluster_name:database name>

        Per il gruppo di lavoro Serverless Amazon Redshift - datazone.rs.workgroup: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      Per ulteriori informazioni, vedere Memorizzazione delle credenziali del database in AWS Secrets Manager.

      L'utente del database fornito in AWS Secrets Manager deve disporre delle autorizzazioni di super utente.

Fase 4 - Produrre dati per la pubblicazione

La sezione seguente descrive le fasi di produzione dei dati da pubblicare in questo flusso di lavoro.

  1. Una volta completato il passaggio 3, nel portale DataZone dati di Amazon, scegli il SalesDataPublishingProject progetto, quindi, nel pannello di destra, in Strumenti di analisi, scegli Amazon Redshift. Questo apre l'editor di query di Amazon Redshift utilizzando le credenziali del progetto per l'autenticazione.

  2. Per questa procedura dettagliata, stai utilizzando lo script di query Create Table as Select (CTAS) per creare una nuova tabella da pubblicare su Amazon. DataZone Nel tuo editor di query, esegui questo script CTAS per creare una mkt_sls_table tabella da pubblicare e rendere disponibile per la ricerca e l'abbonamento.

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    Assicurati che la tabella mkt_sls_table sia stata creata correttamente. Ora hai una risorsa di dati che può essere pubblicata nel DataZone catalogo Amazon.

Fase 5 - Raccolta di metadati da Amazon Redshift

La sezione seguente descrive le fasi di raccolta dei metadati da Amazon Redshift.

  1. Una volta completato il passaggio 4, nel portale DataZone dati Amazon, scegli il SalesDataPublishingProject progetto, quindi scegli la scheda Dati e quindi scegli Origini dati.

  2. Scegli la fonte che è stata creata come parte del processo di creazione dell'ambiente.

  3. Scegli Esegui accanto al menu a discesa Azione, quindi scegli il pulsante Aggiorna. Una volta completata l'esecuzione dell'origine dati, le risorse vengono aggiunte all' DataZone inventario Amazon.

Passaggio 6: cura e pubblica la risorsa di dati

La sezione seguente descrive le fasi di cura e pubblicazione della risorsa di dati in questo flusso di lavoro.

  1. Una volta completato il passaggio 5, nel portale DataZone dati di Amazon, scegli il SalesDataPublishingProject progetto, quindi scegli la scheda Dati, scegli Dati di inventario e individua la mkt_sls_table tabella.

  2. Apri la pagina dei dettagli dell'mkt_sls_tableasset per visualizzare i nomi aziendali generati automaticamente. Scegliete l'icona Metadati generati automaticamente per visualizzare i nomi generati automaticamente per le risorse e le colonne. Puoi accettare o rifiutare ogni nome singolarmente o scegliere Accetta tutto per applicare i nomi generati. Facoltativamente, puoi anche aggiungere il modulo di metadati disponibile alla tua risorsa e selezionare i termini del glossario per classificare i dati.

  3. Scegliete Pubblica per pubblicare la risorsa. mkt_sls_table

Fase 7 - Creazione del progetto per l'analisi dei dati

La sezione seguente descrive le fasi di creazione del progetto per l'analisi dei dati in questo flusso di lavoro.

  1. Una volta completato il passaggio 6, nel portale DataZone dati Amazon, scegli Crea progetto.

  2. Nella pagina Crea progetto, specifica il nome del progetto, ad esempio, per questo flusso di lavoro, puoi assegnargli un nome MarketingDataAnalysisProject, quindi lasciare invariato il resto dei campi e quindi scegli Crea.

Fase 8 - Creare un ambiente per l'analisi dei dati

La sezione seguente descrive le fasi di creazione di un ambiente per l'analisi dei dati in questo flusso di lavoro.

  1. Una volta completato il passaggio 7, nel portale DataZone dati Amazon, scegli il MarketingDataAnalysisProject progetto creato nel passaggio precedente, quindi scegli la scheda Ambienti e quindi scegli Aggiungi ambiente.

  2. Nella pagina Crea ambiente, specifica quanto segue e poi scegli Crea ambiente.

    • Nome: specifica il nome dell'ambiente. Per questa procedura dettagliata, puoi chiamarla. Default data warehouse environment

    • Descrizione: specifica una descrizione per l'ambiente.

    • Profilo ambientale: scegli il profilo DataWarehouseProfiledell'ambiente.

    • Fornisci il nome del cluster Amazon Redshift, il nome del database e l'ARN segreto per il cluster Amazon Redshift in cui sono archiviati i dati.

      Nota

      Assicurati che il tuo segreto in AWS Secrets Manager includa i seguenti tag (chiave/valore):

      • Per il cluster Amazon Redshift - datazone.rs.cluster: <cluster_name:database name>

        Per il gruppo di lavoro Serverless Amazon Redshift - datazone.rs.workgroup: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      Per ulteriori informazioni, vedere Memorizzazione delle credenziali del database in AWS Secrets Manager.

      L'utente del database fornito in AWS Secrets Manager deve disporre delle autorizzazioni di super utente.

    • Per questa procedura dettagliata, mantieni invariati gli altri campi.

Passaggio 9: cerca nel catalogo dati e iscriviti ai dati

La sezione seguente descrive i passaggi per la ricerca nel catalogo dati e la sottoscrizione ai dati.

  1. Una volta completato il passaggio 8, nel portale DataZone dati di Amazon, cerca gli asset di dati utilizzando parole chiave (ad esempio, «catalogo» o «vendite») nella barra di ricerca del portale dati.

    Se necessario, applica filtri o ordinamenti e, una volta individuato l'asset Product Sales Data, puoi sceglierlo per aprire la pagina dei dettagli della risorsa.

  2. Nella pagina dei dettagli della risorsa Product Sales Data, scegli Iscriviti.

  3. Nella finestra di dialogo, scegli il tuo progetto consumer dal menu a discesa, fornisci il motivo della richiesta di accesso, quindi scegli Abbonati.

Passaggio 10: approva la richiesta di abbonamento

La sezione seguente descrive i passaggi di approvazione della richiesta di abbonamento in questo flusso di lavoro.

  1. Una volta completato il passaggio 9, nel portale DataZone dati di Amazon, scegli il SalesDataPublishingProjectprogetto con cui hai pubblicato la tua risorsa.

  2. Scegli la scheda Dati, quindi Dati pubblicati e infine Richieste in arrivo.

  3. Scegli il link di richiesta di visualizzazione, quindi scegli Approva.

Fase 11: creare una query e analizzare i dati in Amazon Redshift

Ora che hai pubblicato con successo una risorsa nel DataZone catalogo Amazon e ti sei abbonato, puoi analizzarla.

  1. Nel portale DataZone dati di Amazon, nel pannello di destra, fai clic sul link Amazon Redshift. Questo apre l'editor di query di Amazon Redshift utilizzando le credenziali del progetto per l'autenticazione.

  2. Ora puoi eseguire una query (select statement) sulla tabella sottoscritta. È possibile fare clic sulla tabella (three-vertical-dots opzione) e scegliere l'anteprima per visualizzare l'istruzione select nella schermata dell'editor. Esegui la query per vedere i risultati.