Configurazione dei nodi di destinazione dati

PDF

RSS

Modalità Focus

Configurazione dei nodi di destinazione dati - AWS Glue

Panoramica delle opzioni di destinazione dati Modifica del nodo di destinazione dati

La destinazione dati è la posizione in cui il processo scrive i dati trasformati.

Panoramica delle opzioni di destinazione dati

La destinazione dati (chiamata anche sink dei dati) può essere:

S3 – Il processo scrive i dati in un file nella posizione Amazon S3 scelta e nel formato specificato.

Se configuri le colonne di partizione per la destinazione dati, il processo scrive il set di dati su Amazon S3 in directory basate sulla chiave di partizione.
AWS Glue Data Catalog – Il processo utilizza le informazioni associate alla tabella nel catalogo dati per scrivere i dati di output in una posizione di destinazione.

Puoi creare la tabella manualmente o con il crawler. Puoi utilizzare anche modelli AWS CloudFormation per creare tabelle nel catalogo dati.
Un connettore: un connettore è un pezzo di codice che facilita la comunicazione tra l'archivio dati e AWS Glue. Il lavoro utilizza il connettore e la connessione associata per scrivere i dati di output in una posizione di destinazione. È possibile abbonarsi a un connettore disponibile in Marketplace AWS oppure creare un connettore personalizzato. Per ulteriori informazioni, consulta Aggiungere connettori a AWS Glue Studio

Puoi scegliere di aggiornare il catalogo dati quando il tuo processo scrive in una destinazione dati Amazon S3. Anziché richiedere a un crawler di aggiornare il catalogo dati quando lo schema o le partizioni cambiano, questa opzione semplifica l'aggiornamento delle tabelle. Questa opzione semplifica il processo che rende disponibili i dati per l'analisi aggiungendo facoltativamente nuove tabelle al catalogo dati, aggiornando le partizioni di tabella e aggiornando lo schema delle tabelle direttamente dal processo.

Modifica del nodo di destinazione dati

La destinazione dati è la posizione in cui il processo scrive i dati trasformati.

Per aggiungere o configurare un nodo di destinazione dati nel diagramma di processo

(Facoltativo) Se devi aggiungere un nodo di destinazione, scegli Target (Destinazione) nella barra degli strumenti nella parte superiore dell'editor visivo, quindi scegli S3 o Glue Data Catalog.
- Se scegli S3 per la destinazione, il processo scrive il set di dati in uno o più file nella posizione Amazon S3 specificata.
- Se scegli AWS Glue Data Catalog per la destinazione, il processo scrive in una posizione descritta dalla tabella selezionata dal catalogo dati.
Scegli un nodo di destinazione dati nel diagramma del processo. Quando scegli un nodo, il pannello dei dettagli del nodo viene visualizzato sul lato destro della pagina.
Seleziona la scheda Node properties (Proprietà del nodo), quindi inserisci le informazioni riportate di seguito:
- Name (Nome): inserisci un nome da associare al nodo nel diagramma del processo.
- Node type (Tipo di nodo): dovrebbe essere già selezionato un valore, ma è possibile modificarlo in base alle necessità.
- Node parents (Nodi padre): il nodo padre è il nodo nel diagramma del processo che fornisce i dati di output da scrivere nella posizione di destinazione. Per un diagramma di processo precompilato, il nodo di destinazione deve già avere il nodo padre selezionato. Se non è visualizzato alcun nodo padre, scegline uno dall'elenco.
  
  Un nodo di destinazione ha un singolo nodo padre.
Configura le informazioni di Data target properties (Proprietà della destinazione dati). Per ulteriori informazioni, consulta le sezioni seguenti:
(Facoltativo) Dopo aver configurato le proprietà del nodo di destinazione dati, puoi visualizzare lo schema di output per i dati scegliendo la scheda Output schema (Schema di output) nel pannello dei dettagli del nodo. La prima volta che si sceglie questa scheda per qualsiasi nodo del processo, viene richiesto di fornire un ruolo IAM per accedere ai dati. Se non è stato specificato un ruolo IAM nella scheda Job details (Dettagli del processo), viene richiesto di immettere un ruolo IAM a questo punto.

Uso di Amazon S3 per la destinazione dati

Per tutte le fonti di dati ad eccezione di Amazon S3 e dei connettori, deve esistere una tabella nel AWS Glue Data Catalog per il tipo di fonte scelto. AWS Glue Studio non crea la tabella Data Catalog.

Per configurare un nodo di destinazione dati che scrive su Amazon S3

Vai all'editor visivo per un processo nuovo o salvato.
Scegli un nodo di origine dati nel diagramma del processo.
Seleziona la scheda Data source properties (Proprietà dell'origine dati), quindi immetti le informazioni riportate di seguito:
- Format (Formato): Scegli un formato dall'elenco. I tipi di formato disponibili per i risultati dei dati sono:
  - JSON: notazione JavaScript degli oggetti.
  - CSV: valori separati da virgola.
  - Avro: Apache Avro JSON binario.
  - Parquet: storage a colonne Apache Parquet.
  - Glue Parquet: un tipo personalizzato di writer Parquet ottimizzato per DynamicFramescome formato dei dati. Anziché richiedere uno schema precalcolato per i dati, calcola e modifica lo schema in modo dinamico.
  - ORC: formato Apache Optimized Row Columnar (ORC).
  Per ulteriori informazioni su queste opzioni di formato, consulta Opzioni di formato per ingressi e uscite ETL in AWS Glue nella Guida per gli sviluppatori di AWS Glue .
- Compression Type (Tipo di compressione): puoi scegliere di comprimere i dati tramite gzip o bzip2. L'impostazione predefinita non è alcuna compressione, oppure None (Nessuna).
- S3 Target Location (Posizione di destinazione S3): il bucket Amazon S3 e la posizione per l'output dei dati. Puoi selezionare il pulsante Browse S3 (Sfoglia S3) per visualizzare i bucket Amazon S3 a cui hai accesso e sceglierne uno come destinazione.
- Opzioni per l'aggiornamento del catalogo dati
  - Do not update the Data Catalog (Non aggiornare il catalogo dati): (impostazione predefinita) scegli questa opzione se non vuoi che il processo aggiorni il catalogo dati, anche se lo schema viene modificato o sono aggiunte nuove partizioni.
  - Create a table in the Data Catalog and on subsequent runs, update the schema and add new partitions (Crea una tabella nel catalogo dati e, nelle esecuzioni successive, aggiorna lo schema e aggiungi nuove partizioni): se scegli questa opzione, il processo crea la tabella nel catalogo dati alla prima esecuzione. Nelle successive esecuzioni del processo, questo aggiorna la tabella del catalogo dati se lo schema viene modificato o sono aggiunte nuove partizioni.
    
    Devi inoltre selezionare un database dal catalogo dati e inserire un nome di tabella.
  - Create a table in the Data Catalog and on subsequent runs, keep existing schema and add new partitions (Crea una tabella nel catalogo dati e, nelle esecuzioni successive, mantieni lo schema esistente e aggiungi nuove partizioni): se scegli questa opzione, il processo crea la tabella nel catalogo dati alla prima esecuzione. Nelle successive esecuzioni del processo, questo aggiorna la tabella del catalogo dati solo per aggiungere nuove partizioni.
    
    Devi inoltre selezionare un database dal catalogo dati e inserire un nome di tabella.
  - Partition keys (Chiavi di partizione): scegli quali colonne utilizzare come chiavi di partizionamento nell'output. Per aggiungere altre chiavi di partizione, scegli Add a partition key (Aggiungi una chiave di partizione).

Utilizzo delle tabelle del catalogo dati per la destinazione dati

Per tutte le fonti di dati ad eccezione di Amazon S3 e dei connettori, deve esistere una tabella nel AWS Glue Data Catalog per il tipo di destinazione scelto. AWS Glue Studio non crea la tabella Data Catalog.

Per configurare le proprietà dei dati per una destinazione che utilizza una tabella del catalogo dati

Vai all'editor visivo per un processo nuovo o salvato.
Scegli un nodo di destinazione dati nel diagramma del processo.
Seleziona la scheda Data target properties (Proprietà della destinazione dati), quindi inserisci le informazioni riportate di seguito:
- Database: scegli dall'elenco il database che contiene la tabella da utilizzare come destinazione. Questo database deve esistere già nel catalogo dati.
- Table (Tabella): scegli la tabella che definisce lo schema dei dati di output dall'elenco. Questa tabella deve esistere già nel catalogo dati.
  
  Una tabella nel catalogo dati contiene i nomi delle colonne, le definizioni dei tipi di dati, le informazioni sulle partizioni e altri metadati su un set di dati di destinazione. Il processo scrive in una posizione descritta da questa tabella nel catalogo dati.
  
  Per ulteriori informazioni sulla creazione di tabelle nel catalogo dati, consulta Definizione di tabelle nel Catalogo dati nella Guida per gli sviluppatori di AWS Glue .
- Opzioni per l'aggiornamento del catalogo dati
  - Do not change table definition (Non modificare la definizione della tabella): (impostazione predefinita) scegli questa opzione se non vuoi che il processo aggiorni il catalogo dati, anche se lo schema viene modificato o sono aggiunte nuove partizioni.
  - Update schema and add new partitions (Aggiorna lo schema e aggiungi nuove partizioni): se scegli questa opzione, il processo aggiorna la tabella del catalogo dati se lo schema viene modificato o sono aggiunte nuove partizioni.
  - Keep existing schema and add new partitions (Mantieni lo schema esistente e aggiungi nuove partizioni): se scegli questa opzione, il processo aggiorna la tabella del catalogo dati solo per aggiungere nuove partizioni.
  - Partition keys (Chiavi di partizione): scegli quali colonne utilizzare come chiavi di partizionamento nell'output. Per aggiungere altre chiavi di partizione, scegli Add a partition key (Aggiungi una chiave di partizione).

Utilizzo di un connettore per la destinazione dati

Se per Node type (Tipo di nodo) selezioni un connettore, segui le istruzioni in Creazione di processi con connettori personalizzati per completare la configurazione delle proprietà della destinazione dati.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo del framework Apache Iceberg in AWS Glue Studio

Modifica o caricamento di uno script del processo

In questa pagina

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Configurazione dei nodi di destinazione dati

Panoramica delle opzioni di destinazione dati

Modifica del nodo di destinazione dati

Per aggiungere o configurare un nodo di destinazione dati nel diagramma di processo

Uso di Amazon S3 per la destinazione dati

Per configurare un nodo di destinazione dati che scrive su Amazon S3

Utilizzo delle tabelle del catalogo dati per la destinazione dati

Per configurare le proprietà dei dati per una destinazione che utilizza una tabella del catalogo dati

Utilizzo di un connettore per la destinazione dati

In questa pagina

Related resources

Questa pagina ti è stata utile?

Related resources

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?