Opzioni del formato dati per input e output in AWS Glue per Spark - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Opzioni del formato dati per input e output in AWS Glue per Spark

Queste pagine offrono informazioni sul supporto delle funzionalità e sui parametri di configurazione per i formati di dati supportati da AWS Glue per Spark. Consulta quanto riportato di seguito per una descrizione dell'uso e dell'applicabilità di queste informazioni.

Supporto delle funzioni per tutti i formati di dati in AWS Glue

Ogni formato dati può supportare diverse funzioni di AWS Glue. Le funzioni comuni indicate di seguito possono essere supportate o meno in base al tipo di formato. Consulta la documentazione relativa al formato dati per capire come sfruttare le nostre funzioni per soddisfare i tuoi requisiti.

Lettura AWS Glue può riconoscere e interpretare questo formato dati senza risorse aggiuntive, ad esempio i connettori.
Scrittura AWS Glue può scrivere dati in questo formato senza risorse aggiuntive. Puoi includere librerie di terzi nel tuo processo e utilizzare funzioni standard di Apache Spark per scrivere i dati, come con altri ambienti Spark. Per ulteriori informazioni sull’inclusione di librerie, consulta Uso di librerie Python con AWS Glue.
Lettura in streaming AWS Glue può riconoscere e interpretare questo formato dati da un flusso di messaggi Apache Kafka, Amazon Managed Streaming for Apache Kafka o Amazon Kinesis. Prevediamo che i flussi presentino i dati in un formato coerente, quindi vengano letti come DataFrames.
Gruppo di file piccoli AWS Glue può raggruppare i file per il lavoro in batch inviato a ogni nodo durante l'esecuzione di trasformazioni di AWS Glue. Ciò può migliorare significativamente le prestazioni per carichi di lavoro che implicano grandi quantità di file piccoli. Per ulteriori informazioni, consulta Lettura di file di input in gruppi di grandi dimensioni.
Segnalibri di processo AWS Glue può tracciare l'avanzamento delle trasformazioni che eseguono lo stesso lavoro sullo stesso set di dati tra esecuzioni di processi con segnalibri di processo. Ciò può migliorare le prestazioni per carichi di lavoro che implicano set di dati in cui occorre operare solo su nuovi dati dall'ultima esecuzione del processo. Per ulteriori informazioni, consulta Monitoraggio dei dati elaborati mediante segnalibri di processo.

Parametri utilizzati per l’interazione con i formati di dati in AWS Glue

Determinati tipi di connessione di AWS Glue supportano più tipi di format, che richiedono di specificare informazioni sul formato dati con un oggetto format_options quando si utilizzano metodi come GlueContext.write_dynamic_frame.from_options.

Alcuni tipi di connessione non richiedono format_options. Ad esempio, nell'utilizzo normale, una connessione JDBC a un database relazionale recupera i dati in un formato dati tabulare coerente. Pertanto, la lettura da una connessione JDBC non richiedere format_options.

Alcuni metodi per la lettura e la scrittura di dati in Glue non richiedono format_options. Ad esempio, utilizzando GlueContext.create_dynamic_frame.from_catalog con crawler di AWS Glue. I crawler determinano la forma dei dati. Quando si utilizzano i crawler, un classificatore AWS Glue esamina i tuoi dati per prendere decisioni intelligenti sulla modalità di rappresentazione del formato dati. A questo punto, archivia una rappresentazione dei tuoi dati nel catalogo dati di AWS Glue, che può essere utilizzato in uno script ETL di AWS Glue per il recupero dei tuoi dati con il metodo GlueContext.create_dynamic_frame.from_catalog. I crawler eliminano la necessità di specificare manualmente informazioni sul formato dati.

Per i processi che accedono alle tabelle governate AWS Lake Formation, AWS Gluesupporta la lettura e la scrittura di tutti i formati supportati da tabelle governate da Lake Formation. Per l'elenco corrente dei formati supportati per tabelle governate da AWS Lake Formation, consulta Note e restrizioni per le tabelle governate nella Guida per gli sviluppatori di AWS Lake Formation.

Nota

Per scrivere Apache Parquet, AWS Glue ETL supporta solo la scrittura su una tabella governata, specificando un'opzione per un tipo di scritture Parquet personalizzata ottimizzata per Dynamic Frames. Quando scrivi su una tabella governata con il formato parquet, è necessario aggiungere la chiave useGlueParquetWriter con un valore di true nei parametri della tabella.

Riferimento alla configurazione condivisa

È possibile utilizzare i seguenti valori di format_options con ogni tipo di formato.

  • attachFilename: una stringa nel formato appropriato da utilizzare come nome di colonna. Se si fornisce questa opzione, il nome del file di origine del record verrà aggiunto al record. Il valore del parametro verrà utilizzato come nome della colonna.

  • attachTimestamp: una stringa nel formato appropriato da utilizzare come nome di colonna. Se si fornisce questa opzione, l'ora di modifica del file di origine del record verrà aggiunta al record. Il valore del parametro verrà utilizzato come nome della colonna.