Monitoraggio con parametri AWS Glue di osservabilità - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitoraggio con parametri AWS Glue di osservabilità

Nota

I parametri di osservabilità AWS Glue sono disponibili in AWS Glue 4.0 e versioni successive.

Utilizza i parametri AWS Glue di osservabilità per generare approfondimenti su ciò che accade all'interno di AWS Glue per i processi di Apache Spark e migliorare la classificazione e l'analisi dei problemi. I parametri di osservabilità vengono visualizzati tramite i pannelli di controllo Amazon CloudWatch e possono essere utilizzati per aiutare a eseguire l'analisi delle cause principali degli errori e diagnosticare i rallentamenti delle prestazioni. È possibile ridurre il tempo impiegato per il debug dei problemi su larga scala così da poterti concentrare sulla risoluzione dei problemi in modo più rapido ed efficace.

AWS GlueL'osservabilità fornisce Amazon CloudWatch metriche classificate nei seguenti quattro gruppi:

  • Affidabilità (ad esempio, classi di errori): identifica facilmente i motivi di errore più comuni in un determinato intervallo di tempo che potresti voler risolvere.

  • Prestazioni (ad esempio, asimmetria): individua un ostacolo prestazionale e applica tecniche di ottimizzazione. Ad esempio, quando riscontri un peggioramento delle prestazioni a causa dell'asimmetria del processo, potresti voler abilitare l'esecuzione delle query adattive Spark e ottimizzare la soglia di unione skew.

  • Velocità di trasmissione effettiva (ossia, velocità effettiva per sorgente/sink): monitora le tendenze delle letture e scritture dei dati. Puoi anche configurare Amazon CloudWatch allarmi per anomalie.

  • Utilizzo delle risorse (ad esempio, personale, utilizzo della memoria e del disco): individuazione efficiente dei processi con un basso utilizzo della capacità. Potresti voler abilitare il dimensionamento automatico AWS Glue per questi processi.

Guida introduttiva ai parametri AWS Glue di osservabilità

Nota

I nuovi parametri sono abilitati per impostazione predefinita nella console AWS Glue Studio.

Per configurare i parametri di osservabilità in AWS Glue Studio:
  1. Accedi alla console AWS Glue e scegli processi ETL dal menu della console.

  2. Scegli un processo facendo clic sul suo nome nella sezione I tuoi processi.

  3. Seleziona la scheda Job details (Dettagli del processo).

  4. Scorri verso il basso e scegli Proprietà avanzate, quindi Parametri di osservabilità del processo.

    Lo screenshot mostra le Proprietà avanzate della scheda dei dettagli del processo. L'opzione Parametri di osservabilità del processo è evidenziata.
Per abilitare le metriche di AWS Glue osservabilità utilizzando: AWS CLI
  • Aggiungi alla mappa --default-arguments il seguente valore-chiave nel file JSON di input:

    --enable-observability-metrics, true

Utilizzo dell'osservabilità AWS Glue

Poiché le metriche AWS Glue di osservabilità vengono fornite tramite Amazon CloudWatch, puoi utilizzare la Amazon CloudWatch console, l'SDK o l'API per interrogare i AWS CLI datapoint delle metriche di osservabilità. Consulta Utilizzo dell'osservabilità Glue per monitorare l'utilizzo delle risorse per ridurre i costi per un caso d'uso di esempio su quando utilizzare i parametri AWS Glue di osservabilità.

Utilizzo dell'osservabilità nella console AWS GlueAmazon CloudWatch

Per interrogare e visualizzare le metriche nella console: Amazon CloudWatch
  1. Apri la Amazon CloudWatch console e scegli Tutte le metriche.

  2. In Spazi dei nomi personalizzati, seleziona AWS Glue.

  3. Scegli Parametri di osservabilità del processo, Parametri di osservabilità per origine oppure Parametri di osservabilità per Sink.

  4. Cerca il nome specifico del parametro, il nome del processo, l'ID di esecuzione del processo e selezionali.

  5. Nella scheda Parametri nel grafico, configura la statistica, il periodo e altre opzioni che preferisci.

    La schermata mostra il grafico della Amazon CloudWatch console e delle metriche.
Per interrogare una metrica di osservabilità utilizzando: AWS CLI
  1. Crea un file JSON di definizione dei parametri e sostituisci your-Glue-job-name e your-Glue-job-run-id con quelli pertinenti.

    $ cat multiplequeries.json [ { "Id": "avgWorkerUtil_0", "MetricStat": { "Metric": { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-A>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-A>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } }, { "Id": "avgWorkerUtil_1", "MetricStat": { "Metric": { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-B>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-B>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } } ]
  2. Eseguire il comando get-metric-data:

    $ aws cloudwatch get-metric-data --metric-data-queries file: //multiplequeries.json \ --start-time '2023-10-28T18: 20' \ --end-time '2023-10-28T19: 10' \ --region us-east-1 { "MetricDataResults": [ { "Id": "avgWorkerUtil_0", "Label": "<your-label-for-A>", "Timestamps": [ "2023-10-28T18:20:00+00:00" ], "Values": [ 0.06718750000000001 ], "StatusCode": "Complete" }, { "Id": "avgWorkerUtil_1", "Label": "<your-label-for-B>", "Timestamps": [ "2023-10-28T18:50:00+00:00" ], "Values": [ 0.5959183673469387 ], "StatusCode": "Complete" } ], "Messages": [] }

Parametri di osservabilità

AWS GlueL'osservabilità profila e invia le seguenti metriche Amazon CloudWatch ogni 30 secondi e alcune di queste metriche possono essere visibili nella pagina AWS Glue Studio Job Runs Monitoring.

Parametro Descrizione Categoria
glue.driver.skewness.stage

Categoria parametro: job_performance

L'asimmetria di esecuzione delle fasi di Spark: questo parametro rileva l'asimmetria di esecuzione, che potrebbe essere causata dall'asimmetria dei dati di input o da una trasformazione (ad es. join asimmetrico). I valori di questo parametro rientrano nell'intervallo [0, infinito], dove 0 indica il rapporto tra il tempo di esecuzione massimo e quello medio delle attività. Tra tutte le attività nella fase, è inferiore a un determinato fattore di asimmetria della stessa. Il fattore predefinito di asimmetria della fase è `5` e può essere sovrascritto tramite la configurazione spark: spark.metrics.conf.driver.source.glue.jobPerformance.skewnessFactor

Un valore di asimmetria della fase pari a 1 significa che il rapporto è il doppio del fattore di asimmetria della fase.

Il valore dell'asimmetria della fase viene aggiornato ogni 30 secondi per riflettere l'asimmetria corrente. Il valore alla fine della fase riflette l'asimmetria della fase finale.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (job_performance)

Statistiche valide: media, massimo, minimo, percentuale

Unità: numero

job_performance
glue.driver.skewness.job

Categoria parametro: job_performance

L'asimmetria del processo corrisponde alla media ponderata dell'asimmetria delle fasi del processo. La media ponderata dà un peso maggiore alle fasi che richiedono più tempo per essere eseguite. In questo modo si evita il caso limite in cui una fase molto asimmetrica viene eseguita per un periodo molto breve rispetto ad altre fasi (quindi la sua asimmetria non è significativa per le prestazioni complessive del processo e non vale la pena cercare di correggerla).

Questo parametro viene aggiornato al completamento di ogni fase, perciò l'ultimo valore riflette l'effettiva asimmetria complessiva del processo.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (job_performance)

Statistiche valide: media, massimo, minimo, percentuale

Unità: numero

job_performance
glue.succeed.ALL

Categoria parametro: errore

Numero totale di processi eseguiti con successo, per completare il quadro delle categorie di errori

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (count) e ObservabilityGroup (error)

Statistiche valide: SOMMA

Unità: numero

error
glue.error.ALL

Categoria parametro: errore

Numero totale di errori di esecuzione del processo, per completare il quadro delle categorie di errori

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (count) e ObservabilityGroup (error)

Statistiche valide: SOMMA

Unità: numero

error
glue.error.[error category]

Categoria parametro: errore

Questo insieme di parametri viene aggiornato solo se l'esecuzione di un processo fallisce. La categorizzazione degli errori facilita la classificazione e il debug. Quando l'esecuzione di un processo fallisce, la causa dell'errore viene classificata e il parametro della categoria di errore corrispondente viene impostato su 1. Ciò consente di eseguire l'analisi degli errori nel corso tempo, nonché quella relativa a tutti i processi, per identificare le categorie di errore più comuni e risolverle. AWS Glue include 28 categorie di errore, tra cui OUT_OF_MEMORY (driver ed executor), AUTORIZZAZIONE, SINTASSI e LIMITAZIONE (DELLA LARGHEZZA DI BANDA DELLA RETE). Le categorie di errore includono anche COMPILAZIONE, AVVIO e TIMEOUT.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (count) e ObservabilityGroup (error)

Statistiche valide: SOMMA

Unità: numero

error
glue.driver.workerUtilization

Categoria parametro: resource_utilization

La percentuale dei worker allocati che vengono effettivamente utilizzati. Se non va bene, può essere utile il dimensionamento automatico.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media, massimo, minimo, percentuale

Unità: percentuale

resource_utilization
glue.driver.memory.heap.[available | used]

Categoria parametro: resource_utilization

La memoria heap del driver disponibile/utilizzata durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: byte

resource_utilization
glue.driver.memory.heap.used.percentage

Categoria parametro: resource_utilization

La memoria heap del driver utilizzata (%) durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: percentuale

resource_utilization
glue.driver.memory.non-heap.[available | used]

Categoria parametro: resource_utilization

La memoria non heap del driver disponibile/utilizzata durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: byte

resource_utilization
glue.driver.memory.non-heap.used.percentage

Categoria parametro: resource_utilization

La memoria non heap del driver utilizzata (%) durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: percentuale

resource_utilization
glue.driver.memory.total.[available | used]

Categoria parametro: resource_utilization

La memoria totale del driver disponibile/utilizzata durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: byte

resource_utilization
glue.driver.memory.total.used.percentage

Categoria parametro: resource_utilization

La memoria totale del driver utilizzata (%) durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: percentuale

resource_utilization
glue.ALL.memory.heap.[available | used]

Categoria parametro: resource_utilization

La memoria heap degli executor disponibile/utilizzata. ALL significa tutti gli executor.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: byte

resource_utilization
glue.ALL.memory.heap.used.percentage

Categoria parametro: resource_utilization

La memoria heap degli executor utilizzata (%). ALL significa tutti gli executor.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: percentuale

resource_utilization
glue.ALL.memory.non-heap.[available | used]

Categoria parametro: resource_utilization

La memoria non heap degli executor disponibile/utilizzata. ALL significa tutti gli executor.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: byte

resource_utilization
glue.ALL.memory.non-heap.used.percentage

Categoria parametro: resource_utilization

La memoria non heap degli executor utilizzata (%). ALL significa tutti gli executor.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: percentuale

resource_utilization
glue.ALL.memory.total.[available | used]

Categoria parametro: resource_utilization

La memoria totale degli executor disponibile/utilizzata. ALL significa tutti gli executor.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: byte

resource_utilization
glue.ALL.memory.total.used.percentage

Categoria parametro: resource_utilization

La memoria totale degli executor utilizzata (%). ALL significa tutti gli executor.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: percentuale

resource_utilization
glue.driver.disk.[available_GB | used_GB]

Categoria parametro: resource_utilization

Lo spazio su disco del driver disponibile/utilizzato durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo del disco, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguire il debug di quelli relativi alla presenza di spazio non sufficiente sul disco.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: gigabyte

resource_utilization
glue.driver.disk.used.percentage]

Categoria parametro: resource_utilization

Lo spazio su disco del driver disponibile/utilizzato durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo del disco, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguire il debug di quelli relativi alla presenza di spazio non sufficiente sul disco.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: percentuale

resource_utilization
glue.ALL.disk.[available_GB | used_GB]

Categoria parametro: resource_utilization

Lo spazio su disco degli executor disponibile/utilizzato. ALL significa tutti gli executor.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: gigabyte

resource_utilization
glue.ALL.disk.used.percentage

Categoria parametro: resource_utilization

Lo spazio su disco degli executor disponibile/utilizzato/utilizzato (%). ALL significa tutti gli executor.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization)

Statistiche valide: media

Unità: percentuale

resource_utilization
glue.driver.bytesRead

Categoria parametro: velocità di trasmissione effettiva

Il numero di byte letti per ogni origine di input in questa esecuzione del processo e per TUTTE le origini. È possibile così comprendere il volume dei dati e le relative variazioni nel tempo, il che consente di risolvere problemi come l'asimmetria dei dati.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Source ObservabilityGroup (posizione dei dati di origine)

Statistiche valide: media

Unità: byte

velocità di trasmissione effettiva
glue.driver.[recordsRead | filesRead]

Categoria parametro: velocità di trasmissione effettiva

Il numero di record/file letti per ogni origine di input in questa esecuzione del processo e per TUTTE le origini. È possibile così comprendere il volume dei dati e le relative variazioni nel tempo, il che consente di risolvere problemi come l'asimmetria dei dati.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Source ObservabilityGroup (posizione dei dati di origine)

Statistiche valide: media

Unità: numero

velocità di trasmissione effettiva
glue.driver.partitionsRead

Categoria parametro: velocità di trasmissione effettiva

Il numero di partizioni lette per ogni origine di input di Amazon S3 in questa esecuzione del processo e per TUTTE le origini.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Source ObservabilityGroup (posizione dei dati di origine)

Statistiche valide: media

Unità: numero

velocità di trasmissione effettiva
glue.driver.bytesWrittten

Categoria parametro: velocità di trasmissione effettiva

Il numero di byte scritti per ogni sink di output in questa esecuzione del processo e per TUTTI i sink. È possibile così comprendere il volume dei dati e il modo in cui evolve nel tempo, il che consente di risolvere problemi come l'asimmetria dell'elaborazione.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Sink ObservabilityGroup (posizione dei dati del sink)

Statistiche valide: media

Unità: byte

velocità di trasmissione effettiva
glue.driver.[recordsWritten | filesWritten]

Categoria parametro: velocità di trasmissione effettiva

Il numero di record/file scritti per ogni sink di output in questa esecuzione del processo e per TUTTI i sink. È possibile così comprendere il volume dei dati e il modo in cui evolve nel tempo, il che consente di risolvere problemi come l'asimmetria dell'elaborazione.

Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Sink ObservabilityGroup (posizione dei dati del sink)

Statistiche valide: media

Unità: numero

velocità di trasmissione effettiva

Categorie di errore

Categorie di errore Descrizione
COMPILATION_ERROR Gli errori si verificano durante la compilazione del codice Scala.
CONNECTION_ERROR Gli errori si verificano durante la connessione a un servizio/host remoto/servizio di database, ecc.
DISK_NO_SPACE_ERROR

Gli errori si verificano quando non c'è più spazio nel disco sul driver/executor.

OUT_OF_MEMORY_ERROR Gli errori si verificano quando non c'è più spazio nella memoria sul driver/executor.
IMPORT_ERROR Gli errori si verificano durante l'importazione delle dipendenze.
INVALID_ARGUMENT_ERROR Gli errori sorgono quando gli argomenti di input non sono validi/illegali.
PERMISSION_ERROR Gli errori si verificano in mancanza di autorizzazioni per il servizio, per i dati, ecc.
RESOURCE_NOT_FOUND_ERROR

Gli errori si verificano quando i dati, la posizione, ecc. non esistono.

QUERY_ERROR Gli errori derivano dall'esecuzione delle query di Spark SQL.
SYNTAX_ERROR Gli errori si verificano quando nello script è presente un errore di sintassi.
THROTTLING_ERROR Gli errori si verificano quando si supera la limitazione della concorrenza del servizio o il limite della quota di servizio.
DATA_LAKE_FRAMEWORK_ERROR Gli errori derivano da framework data lake supportati nativamente da AWS Glue, come Hudi, Iceberg, ecc.
UNSUPPORTED_OPERATION_ERROR Gli errori si verificano quando si eseguono operazioni non supportate.
RESOURCES_ALREADY_EXISTS_ERROR Gli errori si verificano quando una risorsa da creare o aggiungere esiste già.
GLUE_INTERNAL_SERVICE_ERROR Gli errori si verificano quando c'è un problema interno al servizio AWS Glue.
GLUE_OPERATION_TIMEOUT_ERROR Gli errori si verificano quando un'operazione AWS Glue è in timeout.
GLUE_VALIDATION_ERROR Gli errori si verificano quando un valore richiesto non può essere convalidato per un processo AWS Glue.
GLUE_JOB_BOOKMARK_VERSION_MISMATCH_ERROR Gli errori si verificano quando uno stesso processo è in esecuzione su uno stesso bucket di origine e scrive contemporaneamente nella stessa destinazione o in una destinazione diversa (simultaneità >1)
LAUNCH_ERROR Gli errori si verificano durante la fase di avvio del processo AWS Glue.
DYNAMODB_ERROR Gli errori generici derivano dal servizio. Amazon DynamoDB
GLUE_ERROR Gli errori generici derivano dal servizio AWS Glue.
LAKEFORMATION_ERROR Gli errori generici derivano dal AWS Lake Formation servizio.
REDSHIFT_ERROR Gli errori generici derivano dal Amazon Redshift servizio.
S3_ERROR Gli errori generici derivano dal servizio Amazon S3.
SYSTEM_EXIT_ERROR Errore generico di uscita dal sistema.
TIMEOUT_ERROR Gli errori generici si verificano quando il processo fallisce per timeout dell'operazione.
UNCLASSIFIED_SPARK_ERROR Gli errori generici derivano da Spark.
UNCLASSIFIED_ERROR Categoria di errore predefinita.

Limitazioni

Nota

glueContext deve essere inizializzato per poter pubblicare i parametri.

Nella dimensione di origine, il valore corrisponde al percorso o al nome della tabella Amazon S3, a seconda del tipo di origine. Inoltre, se l'origine è JDBC e viene utilizzata l'opzione di query, la stringa di query viene impostata nella dimensione di origine. Se il valore supera i 500 caratteri, viene ridotto per rispettare questo limite. Di seguito sono riportate le limitazioni del valore:

  • I caratteri non ASCII verranno rimossi.

  • Se il nome dell'origine non contiene alcun carattere ASCII, verrà convertito in <non-ASCII input>.

Limitazioni e considerazioni relative ai parametri della velocità di trasmissione effettiva

  • DataFrame e DataFrame based DynamicFrame (ad esempio JDBC, lettura da parquet su Amazon S3) sono supportati, mentre quelli DynamicFrame basati su RDD (ad esempio la lettura di csv, json su Amazon S3, ecc.) non sono supportati. Tecnicamente, tutte le letture e le scritture visibili sull'interfaccia utente di Spark sono supportate.

  • Il parametro recordsRead viene emesso se l'origine dati è una tabella di catalogo e il formato è JSON, CSV, testo o Iceberg.

  • I parametri glue.driver.throughput.recordsWritten, glue.driver.throughput.bytesWritten e glue.driver.throughput.filesWritten non sono disponibili nelle tabelle JDBC e Iceberg.

  • I parametri potrebbero subire ritardi. Se il lavoro termina in circa un minuto, è possibile che in Metrics non sia presente alcuna metrica di throughput. Amazon CloudWatch