Configurazione dei nodi di destinazione dati - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione dei nodi di destinazione dati

La destinazione dati è la posizione in cui il processo scrive i dati trasformati.

Panoramica delle opzioni di destinazione dati

La destinazione dati (chiamata anche sink dei dati) può essere:

  • S3 – Il processo scrive i dati in un file nella posizione Amazon S3 scelta e nel formato specificato.

    Se configuri le colonne di partizione per la destinazione dati, il processo scrive il set di dati su Amazon S3 in directory basate sulla chiave di partizione.

  • AWS Glue Data Catalog – Il processo utilizza le informazioni associate alla tabella nel catalogo dati per scrivere i dati di output in una posizione di destinazione.

    Puoi creare la tabella manualmente o con il crawler. Puoi utilizzare anche modelli AWS CloudFormation per creare tabelle nel catalogo dati.

  • Un connettore – un connettore è una parte di codice che facilita la comunicazione tra l'archivio dati e AWS Glue. Il processo utilizza il connettore e la connessione associata per scrivere i dati di output in una posizione di destinazione. Puoi effettuare la sottoscrizione a un connettore offerto in Marketplace AWS oppure puoi creare un connettore personalizzato. Per ulteriori informazioni, consulta Aggiunta di connettori a AWS Glue Studio.

Puoi scegliere di aggiornare il catalogo dati quando il tuo processo scrive in una destinazione dati Amazon S3. Anziché richiedere a un crawler di aggiornare il catalogo dati quando lo schema o le partizioni cambiano, questa opzione semplifica l'aggiornamento delle tabelle. Questa opzione semplifica il processo che rende disponibili i dati per l'analisi aggiungendo facoltativamente nuove tabelle al catalogo dati, aggiornando le partizioni di tabella e aggiornando lo schema delle tabelle direttamente dal processo.

Modifica del nodo di destinazione dati

La destinazione dati è la posizione in cui il processo scrive i dati trasformati.

Per aggiungere o configurare un nodo di destinazione dati nel diagramma di processo
  1. (Facoltativo) Se devi aggiungere un nodo di destinazione, scegli Target (Destinazione) nella barra degli strumenti nella parte superiore dell'editor visivo, quindi scegli S3 o Glue Data Catalog.

    • Se scegli S3 per la destinazione, il processo scrive il set di dati in uno o più file nella posizione Amazon S3 specificata.

    • Se scegli AWS Glue Data Catalog per la destinazione, il processo scrive in una posizione descritta dalla tabella selezionata dal catalogo dati.

  2. Scegli un nodo di destinazione dati nel diagramma del processo. Quando scegli un nodo, il pannello dei dettagli del nodo viene visualizzato sul lato destro della pagina.

  3. Seleziona la scheda Node properties (Proprietà del nodo), quindi inserisci le informazioni riportate di seguito:

    • Name (Nome): inserisci un nome da associare al nodo nel diagramma del processo.

    • Node type (Tipo di nodo): dovrebbe essere già selezionato un valore, ma è possibile modificarlo in base alle necessità.

    • Node parents (Nodi padre): il nodo padre è il nodo nel diagramma del processo che fornisce i dati di output da scrivere nella posizione di destinazione. Per un diagramma di processo precompilato, il nodo di destinazione deve già avere il nodo padre selezionato. Se non è visualizzato alcun nodo padre, scegline uno dall'elenco.

      Un nodo di destinazione ha un singolo nodo padre.

  4. Configura le informazioni di Data target properties (Proprietà della destinazione dati). Per ulteriori informazioni, consulta le sezioni seguenti:

  5. (Facoltativo) Dopo aver configurato le proprietà del nodo di destinazione dati, puoi visualizzare lo schema di output per i dati scegliendo la scheda Output schema (Schema di output) nel pannello dei dettagli del nodo. La prima volta che si sceglie questa scheda per qualsiasi nodo del processo, viene richiesto di fornire un ruolo IAM per accedere ai dati. Se non è stato specificato un ruolo IAM nella scheda Job details (Dettagli del processo), viene richiesto di immettere un ruolo IAM a questo punto.

Uso di Amazon S3 per la destinazione dati

Per tutte le origini dati ad eccezione di Amazon S3 e dei connettori, è necessario che esista una tabella in AWS Glue Data Catalog per il tipo di origine scelto. AWS Glue Studio non crea la tabella in Data Catalog.

Per configurare un nodo di destinazione dati che scrive su Amazon S3
  1. Vai all'editor visivo per un processo nuovo o salvato.

  2. Scegli un nodo di origine dati nel diagramma del processo.

  3. Seleziona la scheda Data source properties (Proprietà dell'origine dati), quindi immetti le informazioni riportate di seguito:

    • Format (Formato): Scegli un formato dall'elenco. I tipi di formato disponibili per i risultati dei dati sono:

      • JSON: JavaScript Object Notation.

      • CSV: valori separati da virgola.

      • Avro: Apache Avro JSON binario.

      • Parquet: storage a colonne Apache Parquet.

      • Glue Parquet: un tipo personalizzato di writer Parquet ottimizzato per DynamicFramescome formato dei dati. Anziché richiedere uno schema precalcolato per i dati, calcola e modifica lo schema in modo dinamico.

      • ORC: formato Apache Optimized Row Columnar (ORC).

      Per ulteriori informazioni su queste opzioni di formato, consulta Opzioni di formato per gli input e output ETL in AWS Glue nella Guida per gli sviluppatori di AWS Glue.

    • Compression Type (Tipo di compressione): puoi scegliere di comprimere i dati tramite gzip o bzip2. L'impostazione predefinita non è alcuna compressione, oppure None (Nessuna).

    • S3 Target Location (Posizione di destinazione S3): il bucket Amazon S3 e la posizione per l'output dei dati. Puoi selezionare il pulsante Browse S3 (Sfoglia S3) per visualizzare i bucket Amazon S3 a cui hai accesso e sceglierne uno come destinazione.

    • Opzioni per l'aggiornamento del catalogo dati

      • Do not update the Data Catalog (Non aggiornare il catalogo dati): (impostazione predefinita) scegli questa opzione se non vuoi che il processo aggiorni il catalogo dati, anche se lo schema viene modificato o sono aggiunte nuove partizioni.

      • Create a table in the Data Catalog and on subsequent runs, update the schema and add new partitions (Crea una tabella nel catalogo dati e, nelle esecuzioni successive, aggiorna lo schema e aggiungi nuove partizioni): se scegli questa opzione, il processo crea la tabella nel catalogo dati alla prima esecuzione. Nelle successive esecuzioni del processo, questo aggiorna la tabella del catalogo dati se lo schema viene modificato o sono aggiunte nuove partizioni.

        Devi inoltre selezionare un database dal catalogo dati e inserire un nome di tabella.

      • Create a table in the Data Catalog and on subsequent runs, keep existing schema and add new partitions (Crea una tabella nel catalogo dati e, nelle esecuzioni successive, mantieni lo schema esistente e aggiungi nuove partizioni): se scegli questa opzione, il processo crea la tabella nel catalogo dati alla prima esecuzione. Nelle successive esecuzioni del processo, questo aggiorna la tabella del catalogo dati solo per aggiungere nuove partizioni.

        Devi inoltre selezionare un database dal catalogo dati e inserire un nome di tabella.

      • Partition keys (Chiavi di partizione): scegli quali colonne utilizzare come chiavi di partizionamento nell'output. Per aggiungere altre chiavi di partizione, scegli Add a partition key (Aggiungi una chiave di partizione).

Utilizzo delle tabelle del catalogo dati per la destinazione dati

Per tutte le origini dati ad eccezione di Amazon S3 e dei connettori, è necessario che esista una tabella in AWS Glue Data Catalog per il tipo di destinazione scelto. AWS Glue Studio non crea la tabella in Data Catalog.

Per configurare le proprietà dei dati per una destinazione che utilizza una tabella del catalogo dati
  1. Vai all'editor visivo per un processo nuovo o salvato.

  2. Scegli un nodo di destinazione dati nel diagramma del processo.

  3. Seleziona la scheda Data target properties (Proprietà della destinazione dati), quindi inserisci le informazioni riportate di seguito:

    • Database: scegli dall'elenco il database che contiene la tabella da utilizzare come destinazione. Questo database deve esistere già nel catalogo dati.

    • Table (Tabella): scegli la tabella che definisce lo schema dei dati di output dall'elenco. Questa tabella deve esistere già nel catalogo dati.

      Una tabella nel catalogo dati contiene i nomi delle colonne, le definizioni dei tipi di dati, le informazioni sulle partizioni e altri metadati su un set di dati di destinazione. Il processo scrive in una posizione descritta da questa tabella nel catalogo dati.

      Per ulteriori informazioni sulla creazione di tabelle nel catalogo dati, consulta Definizione di tabelle nel Catalogo dati nella Guida per gli sviluppatori di AWS Glue.

    • Opzioni per l'aggiornamento del catalogo dati

      • Do not change table definition (Non modificare la definizione della tabella): (impostazione predefinita) scegli questa opzione se non vuoi che il processo aggiorni il catalogo dati, anche se lo schema viene modificato o sono aggiunte nuove partizioni.

      • Update schema and add new partitions (Aggiorna lo schema e aggiungi nuove partizioni): se scegli questa opzione, il processo aggiorna la tabella del catalogo dati se lo schema viene modificato o sono aggiunte nuove partizioni.

      • Keep existing schema and add new partitions (Mantieni lo schema esistente e aggiungi nuove partizioni): se scegli questa opzione, il processo aggiorna la tabella del catalogo dati solo per aggiungere nuove partizioni.

      • Partition keys (Chiavi di partizione): scegli quali colonne utilizzare come chiavi di partizionamento nell'output. Per aggiungere altre chiavi di partizione, scegli Add a partition key (Aggiungi una chiave di partizione).

Utilizzo di un connettore per la destinazione dati

Se per Node type (Tipo di nodo) selezioni un connettore, segui le istruzioni in Creazione di processi con connettori personalizzati per completare la configurazione delle proprietà della destinazione dati.