Supporto funzionalità Parametri del formato dei dati Riferimento alla configurazione condivisa

Opzioni del formato dati per input e output in AWS Glue per Spark

Queste pagine offrono informazioni sul supporto delle funzionalità e sui parametri di configurazione per i formati di dati supportati da AWS Glue per Spark. Consulta quanto riportato di seguito per una descrizione dell'uso e dell'applicabilità di queste informazioni.

Supporto delle funzionalità per tutti i formati di dati in AWS Glue

Ogni formato di dati può supportare diverse funzionalità di AWS Glue. Le funzioni comuni indicate di seguito possono essere supportate o meno in base al tipo di formato. Consulta la documentazione relativa al formato dati per capire come sfruttare le nostre funzioni per soddisfare i tuoi requisiti.

Lettura	AWS Glue è in grado di riconoscere e interpretare questo formato di dati senza risorse aggiuntive, come i connettori.
Scrittura	AWS Glue può scrivere dati in questo formato senza risorse aggiuntive. Puoi includere librerie di terzi nel tuo processo e utilizzare funzioni standard di Apache Spark per scrivere i dati, come con altri ambienti Spark. Per ulteriori informazioni sull’inclusione di librerie, consulta Usare le librerie Python con Glue AWS.
Lettura in streaming	AWS Glue è in grado di riconoscere e interpretare questo formato di dati da un flusso di messaggi Apache Kafka, Amazon Managed Streaming for Apache Kafka o Amazon Kinesis. Prevediamo che i flussi presentino i dati in un formato coerente, quindi vengano letti come `DataFrames`.
Gruppo di file piccoli	AWS Glue può raggruppare i file per il lavoro in batch inviato a ciascun nodo durante l'esecuzione delle trasformazioni di AWS Glue. Ciò può migliorare significativamente le prestazioni per carichi di lavoro che implicano grandi quantità di file piccoli. Per ulteriori informazioni, consulta Lettura di file di input in gruppi di grandi dimensioni.
Segnalibri di processo	AWS Glue è in grado di monitorare l'avanzamento delle trasformazioni che eseguono lo stesso lavoro sullo stesso set di dati in tutte le esecuzioni di lavoro con i segnalibri dei lavori. Ciò può migliorare le prestazioni per carichi di lavoro che implicano set di dati in cui occorre operare solo su nuovi dati dall'ultima esecuzione del processo. Per ulteriori informazioni, consulta Monitoraggio dei dati elaborati mediante segnalibri di processo.

Parametri utilizzati per interagire con i formati di dati in AWS Glue

Alcuni tipi di connessione AWS Glue supportano più format tipi, pertanto è necessario specificare informazioni sul formato dei dati con un format_options oggetto quando si utilizzano metodi comeGlueContext.write_dynamic_frame.from_options.

s3— Per ulteriori informazioni, vedere Tipi di connessione e opzioni per ETL in AWS Glue:Parametri di connessione di S3. Puoi anche visualizzare la documentazione relativa ai metodi che facilitano questo tipo di connessione: create_dynamic_frame_from_options e write_dynamic_frame_from_options in Python e i metodi Scala corrispondenti formato def getSourceWith e Formato def getSinkWith.
kinesis— Per ulteriori informazioni, vedere Tipi di connessione e opzioni per ETL in AWS Glue:Parametri di connessione Kinesis. Puoi anche visualizzare la documentazione relativa ai metodi che facilitano questo tipo di connessione: create_data_frame_from_options e il metodo Scala corrispondente def createDataFrame FromOptions.
kafka— Per ulteriori informazioni, vedere Tipi di connessione e opzioni per ETL in AWS Glue:Parametri di connessione Kafka. Puoi anche visualizzare la documentazione relativa ai metodi che facilitano questo tipo di connessione: create_data_frame_from_options e il metodo Scala corrispondente def createDataFrame FromOptions.

Alcuni tipi di connessione non richiedono format_options. Ad esempio, nell'utilizzo normale, una connessione JDBC a un database relazionale recupera i dati in un formato dati tabulare coerente. Pertanto, la lettura da una connessione JDBC non richiedere format_options.

Alcuni metodi per la lettura e la scrittura di dati in Glue non richiedono format_options. Ad esempio, utilizzando GlueContext.create_dynamic_frame.from_catalog con i crawler AWS Glue. I crawler determinano la forma dei dati. Quando si utilizzano i crawler, un classificatore AWS Glue esaminerà i dati per prendere decisioni intelligenti su come rappresentare il formato dei dati. Quindi memorizzerà una rappresentazione dei dati nel AWS Glue Data Catalog, che può essere utilizzata all'interno di uno script AWS Glue ETL per recuperare i dati con il GlueContext.create_dynamic_frame.from_catalog metodo. I crawler eliminano la necessità di specificare manualmente informazioni sul formato dati.

Per i lavori che accedono a tabelle AWS Lake Formation gestite, AWS Glue supporta la lettura e la scrittura di tutti i formati supportati dalle tabelle governate da Lake Formation. Per l'elenco corrente dei formati supportati per le tabelle AWS Lake Formation governate, consulta Notes and Restrictions for Governed Tables nella AWS Lake Formation Developer Guide.

Nota

Per scrivere Apache Parquet, AWS Glue ETL supporta solo la scrittura su una tabella governata, specificando un'opzione per un tipo di scritture Parquet personalizzata ottimizzata per Dynamic Frames. Quando scrivi su una tabella governata con il formato parquet, è necessario aggiungere la chiave useGlueParquetWriter con un valore di true nei parametri della tabella.

Argomenti

Riferimento alla configurazione condivisa

È possibile utilizzare i seguenti valori di format_options con ogni tipo di formato.

attachFilename: una stringa nel formato appropriato da utilizzare come nome di colonna. Se si fornisce questa opzione, il nome del file di origine del record verrà aggiunto al record. Il valore del parametro verrà utilizzato come nome della colonna.
attachTimestamp: una stringa nel formato appropriato da utilizzare come nome di colonna. Se si fornisce questa opzione, l'ora di modifica del file di origine del record verrà aggiunta al record. Il valore del parametro verrà utilizzato come nome della colonna.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Connessioni Vertica

CSV