Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Monitoraggio con parametri AWS Glue di osservabilità
Nota
I parametri di osservabilità AWS Glue sono disponibili in AWS Glue 4.0 e versioni successive.
Utilizza i parametri AWS Glue di osservabilità per generare approfondimenti su ciò che accade all'interno di AWS Glue per i processi di Apache Spark e migliorare la classificazione e l'analisi dei problemi. I parametri di osservabilità vengono visualizzati tramite i pannelli di controllo Amazon CloudWatch e possono essere utilizzati per aiutare a eseguire l'analisi delle cause principali degli errori e diagnosticare i rallentamenti delle prestazioni. È possibile ridurre il tempo impiegato per il debug dei problemi su larga scala così da poterti concentrare sulla risoluzione dei problemi in modo più rapido ed efficace.
AWS GlueL'osservabilità fornisce Amazon CloudWatch metriche classificate nei seguenti quattro gruppi:
-
Affidabilità (ad esempio, classi di errori): identifica facilmente i motivi di errore più comuni in un determinato intervallo di tempo che potresti voler risolvere.
-
Prestazioni (ad esempio, asimmetria): individua un ostacolo prestazionale e applica tecniche di ottimizzazione. Ad esempio, quando riscontri un peggioramento delle prestazioni a causa dell'asimmetria del processo, potresti voler abilitare l'esecuzione delle query adattive Spark e ottimizzare la soglia di unione skew.
-
Velocità di trasmissione effettiva (ossia, velocità effettiva per sorgente/sink): monitora le tendenze delle letture e scritture dei dati. Puoi anche configurare Amazon CloudWatch allarmi per anomalie.
-
Utilizzo delle risorse (ad esempio, personale, utilizzo della memoria e del disco): individuazione efficiente dei processi con un basso utilizzo della capacità. Potresti voler abilitare il dimensionamento automatico AWS Glue per questi processi.
Guida introduttiva ai parametri AWS Glue di osservabilità
Nota
I nuovi parametri sono abilitati per impostazione predefinita nella console AWS Glue Studio.
Per configurare i parametri di osservabilità in AWS Glue Studio:
-
Accedi alla console AWS Glue e scegli processi ETL dal menu della console.
-
Scegli un processo facendo clic sul suo nome nella sezione I tuoi processi.
-
Seleziona la scheda Job details (Dettagli del processo).
-
Scorri verso il basso e scegli Proprietà avanzate, quindi Parametri di osservabilità del processo.
Per abilitare le metriche di AWS Glue osservabilità utilizzando: AWS CLI
-
Aggiungi alla mappa
--default-arguments
il seguente valore-chiave nel file JSON di input:--enable-observability-metrics, true
Utilizzo dell'osservabilità AWS Glue
Poiché le metriche AWS Glue di osservabilità vengono fornite tramite Amazon CloudWatch, puoi utilizzare la Amazon CloudWatch console, l'SDK o l'API per interrogare i AWS CLI datapoint delle metriche di osservabilità. Consulta Utilizzo dell'osservabilità Glue per monitorare l'utilizzo delle risorse per ridurre i costi
Utilizzo dell'osservabilità nella console AWS GlueAmazon CloudWatch
Per interrogare e visualizzare le metriche nella console: Amazon CloudWatch
-
Apri la Amazon CloudWatch console e scegli Tutte le metriche.
-
In Spazi dei nomi personalizzati, seleziona AWS Glue.
-
Scegli Parametri di osservabilità del processo, Parametri di osservabilità per origine oppure Parametri di osservabilità per Sink.
-
Cerca il nome specifico del parametro, il nome del processo, l'ID di esecuzione del processo e selezionali.
-
Nella scheda Parametri nel grafico, configura la statistica, il periodo e altre opzioni che preferisci.
Per interrogare una metrica di osservabilità utilizzando: AWS CLI
-
Crea un file JSON di definizione dei parametri e sostituisci
your-Glue-job-name
eyour-Glue-job-run-id
con quelli pertinenti.$ cat multiplequeries.json [ { "Id": "avgWorkerUtil_0", "MetricStat": { "Metric": { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-A>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-A>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } }, { "Id": "avgWorkerUtil_1", "MetricStat": { "Metric": { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-B>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-B>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } } ]
-
Eseguire il comando
get-metric-data
:$ aws cloudwatch get-metric-data --metric-data-queries file: //multiplequeries.json \ --start-time '2023-10-28T18: 20' \ --end-time '2023-10-28T19: 10' \ --region us-east-1 { "MetricDataResults": [ { "Id": "avgWorkerUtil_0", "Label": "<your-label-for-A>", "Timestamps": [ "2023-10-28T18:20:00+00:00" ], "Values": [ 0.06718750000000001 ], "StatusCode": "Complete" }, { "Id": "avgWorkerUtil_1", "Label": "<your-label-for-B>", "Timestamps": [ "2023-10-28T18:50:00+00:00" ], "Values": [ 0.5959183673469387 ], "StatusCode": "Complete" } ], "Messages": [] }
Parametri di osservabilità
AWS GlueL'osservabilità profila e invia le seguenti metriche Amazon CloudWatch ogni 30 secondi e alcune di queste metriche possono essere visibili nella pagina AWS Glue Studio Job Runs Monitoring.
Parametro | Descrizione | Categoria |
---|---|---|
glue.driver.skewness.stage |
Categoria parametro: job_performance L'asimmetria di esecuzione delle fasi di Spark: questo parametro rileva l'asimmetria di esecuzione, che potrebbe essere causata dall'asimmetria dei dati di input o da una trasformazione (ad es. join asimmetrico). I valori di questo parametro rientrano nell'intervallo [0, infinito], dove 0 indica il rapporto tra il tempo di esecuzione massimo e quello medio delle attività. Tra tutte le attività nella fase, è inferiore a un determinato fattore di asimmetria della stessa. Il fattore predefinito di asimmetria della fase è `5` e può essere sovrascritto tramite la configurazione spark: spark.metrics.conf.driver.source.glue.jobPerformance.skewnessFactor Un valore di asimmetria della fase pari a 1 significa che il rapporto è il doppio del fattore di asimmetria della fase. Il valore dell'asimmetria della fase viene aggiornato ogni 30 secondi per riflettere l'asimmetria corrente. Il valore alla fine della fase riflette l'asimmetria della fase finale. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (job_performance) Statistiche valide: media, massimo, minimo, percentuale Unità: numero |
job_performance |
glue.driver.skewness.job |
Categoria parametro: job_performance L'asimmetria del processo corrisponde alla media ponderata dell'asimmetria delle fasi del processo. La media ponderata dà un peso maggiore alle fasi che richiedono più tempo per essere eseguite. In questo modo si evita il caso limite in cui una fase molto asimmetrica viene eseguita per un periodo molto breve rispetto ad altre fasi (quindi la sua asimmetria non è significativa per le prestazioni complessive del processo e non vale la pena cercare di correggerla). Questo parametro viene aggiornato al completamento di ogni fase, perciò l'ultimo valore riflette l'effettiva asimmetria complessiva del processo. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (job_performance) Statistiche valide: media, massimo, minimo, percentuale Unità: numero |
job_performance |
glue.succeed.ALL |
Categoria parametro: errore Numero totale di processi eseguiti con successo, per completare il quadro delle categorie di errori Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (count) e ObservabilityGroup (error) Statistiche valide: SOMMA Unità: numero |
error |
glue.error.ALL |
Categoria parametro: errore Numero totale di errori di esecuzione del processo, per completare il quadro delle categorie di errori Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (count) e ObservabilityGroup (error) Statistiche valide: SOMMA Unità: numero |
error |
glue.error.[error category] |
Categoria parametro: errore Questo insieme di parametri viene aggiornato solo se l'esecuzione di un processo fallisce. La categorizzazione degli errori facilita la classificazione e il debug. Quando l'esecuzione di un processo fallisce, la causa dell'errore viene classificata e il parametro della categoria di errore corrispondente viene impostato su 1. Ciò consente di eseguire l'analisi degli errori nel corso tempo, nonché quella relativa a tutti i processi, per identificare le categorie di errore più comuni e risolverle. AWS Glue include 28 categorie di errore, tra cui OUT_OF_MEMORY (driver ed executor), AUTORIZZAZIONE, SINTASSI e LIMITAZIONE (DELLA LARGHEZZA DI BANDA DELLA RETE). Le categorie di errore includono anche COMPILAZIONE, AVVIO e TIMEOUT. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (count) e ObservabilityGroup (error) Statistiche valide: SOMMA Unità: numero |
error |
glue.driver.workerUtilization |
Categoria parametro: resource_utilization La percentuale dei worker allocati che vengono effettivamente utilizzati. Se non va bene, può essere utile il dimensionamento automatico. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media, massimo, minimo, percentuale Unità: percentuale |
resource_utilization |
glue.driver.memory.heap.[available | used] |
Categoria parametro: resource_utilization La memoria heap del driver disponibile/utilizzata durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
glue.driver.memory.heap.used.percentage |
Categoria parametro: resource_utilization La memoria heap del driver utilizzata (%) durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
glue.driver.memory.non-heap.[available | used] |
Categoria parametro: resource_utilization La memoria non heap del driver disponibile/utilizzata durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
glue.driver.memory.non-heap.used.percentage |
Categoria parametro: resource_utilization La memoria non heap del driver utilizzata (%) durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
glue.driver.memory.total.[available | used] |
Categoria parametro: resource_utilization La memoria totale del driver disponibile/utilizzata durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
glue.driver.memory.total.used.percentage |
Categoria parametro: resource_utilization La memoria totale del driver utilizzata (%) durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
glue.ALL.memory.heap.[available | used] |
Categoria parametro: resource_utilization La memoria heap degli executor disponibile/utilizzata. ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
glue.ALL.memory.heap.used.percentage |
Categoria parametro: resource_utilization La memoria heap degli executor utilizzata (%). ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
glue.ALL.memory.non-heap.[available | used] |
Categoria parametro: resource_utilization La memoria non heap degli executor disponibile/utilizzata. ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
glue.ALL.memory.non-heap.used.percentage |
Categoria parametro: resource_utilization La memoria non heap degli executor utilizzata (%). ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
glue.ALL.memory.total.[available | used] |
Categoria parametro: resource_utilization La memoria totale degli executor disponibile/utilizzata. ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
glue.ALL.memory.total.used.percentage |
Categoria parametro: resource_utilization La memoria totale degli executor utilizzata (%). ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
glue.driver.disk.[available_GB | used_GB] |
Categoria parametro: resource_utilization Lo spazio su disco del driver disponibile/utilizzato durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo del disco, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguire il debug di quelli relativi alla presenza di spazio non sufficiente sul disco. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: gigabyte |
resource_utilization |
glue.driver.disk.used.percentage] |
Categoria parametro: resource_utilization Lo spazio su disco del driver disponibile/utilizzato durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo del disco, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguire il debug di quelli relativi alla presenza di spazio non sufficiente sul disco. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
glue.ALL.disk.[available_GB | used_GB] |
Categoria parametro: resource_utilization Lo spazio su disco degli executor disponibile/utilizzato. ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: gigabyte |
resource_utilization |
glue.ALL.disk.used.percentage |
Categoria parametro: resource_utilization Lo spazio su disco degli executor disponibile/utilizzato/utilizzato (%). ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
glue.driver.bytesRead |
Categoria parametro: velocità di trasmissione effettiva Il numero di byte letti per ogni origine di input in questa esecuzione del processo e per TUTTE le origini. È possibile così comprendere il volume dei dati e le relative variazioni nel tempo, il che consente di risolvere problemi come l'asimmetria dei dati. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Source ObservabilityGroup (posizione dei dati di origine) Statistiche valide: media Unità: byte |
velocità di trasmissione effettiva |
glue.driver.[recordsRead | filesRead] |
Categoria parametro: velocità di trasmissione effettiva Il numero di record/file letti per ogni origine di input in questa esecuzione del processo e per TUTTE le origini. È possibile così comprendere il volume dei dati e le relative variazioni nel tempo, il che consente di risolvere problemi come l'asimmetria dei dati. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Source ObservabilityGroup (posizione dei dati di origine) Statistiche valide: media Unità: numero |
velocità di trasmissione effettiva |
glue.driver.partitionsRead |
Categoria parametro: velocità di trasmissione effettiva Il numero di partizioni lette per ogni origine di input di Amazon S3 in questa esecuzione del processo e per TUTTE le origini. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Source ObservabilityGroup (posizione dei dati di origine) Statistiche valide: media Unità: numero |
velocità di trasmissione effettiva |
glue.driver.bytesWrittten |
Categoria parametro: velocità di trasmissione effettiva Il numero di byte scritti per ogni sink di output in questa esecuzione del processo e per TUTTI i sink. È possibile così comprendere il volume dei dati e il modo in cui evolve nel tempo, il che consente di risolvere problemi come l'asimmetria dell'elaborazione. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Sink ObservabilityGroup (posizione dei dati del sink) Statistiche valide: media Unità: byte |
velocità di trasmissione effettiva |
glue.driver.[recordsWritten | filesWritten] |
Categoria parametro: velocità di trasmissione effettiva Il numero di record/file scritti per ogni sink di output in questa esecuzione del processo e per TUTTI i sink. È possibile così comprendere il volume dei dati e il modo in cui evolve nel tempo, il che consente di risolvere problemi come l'asimmetria dell'elaborazione. Dimensioni valide: JobName (il nome del AWS Glue Job), JobRunId ( JobRun ID. o ALL), Type (gauge), (resource_utilization) e Sink ObservabilityGroup (posizione dei dati del sink) Statistiche valide: media Unità: numero |
velocità di trasmissione effettiva |
Categorie di errore
Categorie di errore | Descrizione |
---|---|
COMPILATION_ERROR | Gli errori si verificano durante la compilazione del codice Scala. |
CONNECTION_ERROR | Gli errori si verificano durante la connessione a un servizio/host remoto/servizio di database, ecc. |
DISK_NO_SPACE_ERROR |
Gli errori si verificano quando non c'è più spazio nel disco sul driver/executor. |
OUT_OF_MEMORY_ERROR | Gli errori si verificano quando non c'è più spazio nella memoria sul driver/executor. |
IMPORT_ERROR | Gli errori si verificano durante l'importazione delle dipendenze. |
INVALID_ARGUMENT_ERROR | Gli errori sorgono quando gli argomenti di input non sono validi/illegali. |
PERMISSION_ERROR | Gli errori si verificano in mancanza di autorizzazioni per il servizio, per i dati, ecc. |
RESOURCE_NOT_FOUND_ERROR |
Gli errori si verificano quando i dati, la posizione, ecc. non esistono. |
QUERY_ERROR | Gli errori derivano dall'esecuzione delle query di Spark SQL. |
SYNTAX_ERROR | Gli errori si verificano quando nello script è presente un errore di sintassi. |
THROTTLING_ERROR | Gli errori si verificano quando si supera la limitazione della concorrenza del servizio o il limite della quota di servizio. |
DATA_LAKE_FRAMEWORK_ERROR | Gli errori derivano da framework data lake supportati nativamente da AWS Glue, come Hudi, Iceberg, ecc. |
UNSUPPORTED_OPERATION_ERROR | Gli errori si verificano quando si eseguono operazioni non supportate. |
RESOURCES_ALREADY_EXISTS_ERROR | Gli errori si verificano quando una risorsa da creare o aggiungere esiste già. |
GLUE_INTERNAL_SERVICE_ERROR | Gli errori si verificano quando c'è un problema interno al servizio AWS Glue. |
GLUE_OPERATION_TIMEOUT_ERROR | Gli errori si verificano quando un'operazione AWS Glue è in timeout. |
GLUE_VALIDATION_ERROR | Gli errori si verificano quando un valore richiesto non può essere convalidato per un processo AWS Glue. |
GLUE_JOB_BOOKMARK_VERSION_MISMATCH_ERROR | Gli errori si verificano quando uno stesso processo è in esecuzione su uno stesso bucket di origine e scrive contemporaneamente nella stessa destinazione o in una destinazione diversa (simultaneità >1) |
LAUNCH_ERROR | Gli errori si verificano durante la fase di avvio del processo AWS Glue. |
DYNAMODB_ERROR | Gli errori generici derivano dal servizio. Amazon DynamoDB |
GLUE_ERROR | Gli errori generici derivano dal servizio AWS Glue. |
LAKEFORMATION_ERROR | Gli errori generici derivano dal AWS Lake Formation servizio. |
REDSHIFT_ERROR | Gli errori generici derivano dal Amazon Redshift servizio. |
S3_ERROR | Gli errori generici derivano dal servizio Amazon S3. |
SYSTEM_EXIT_ERROR | Errore generico di uscita dal sistema. |
TIMEOUT_ERROR | Gli errori generici si verificano quando il processo fallisce per timeout dell'operazione. |
UNCLASSIFIED_SPARK_ERROR | Gli errori generici derivano da Spark. |
UNCLASSIFIED_ERROR | Categoria di errore predefinita. |
Limitazioni
Nota
glueContext
deve essere inizializzato per poter pubblicare i parametri.
Nella dimensione di origine, il valore corrisponde al percorso o al nome della tabella Amazon S3, a seconda del tipo di origine. Inoltre, se l'origine è JDBC e viene utilizzata l'opzione di query, la stringa di query viene impostata nella dimensione di origine. Se il valore supera i 500 caratteri, viene ridotto per rispettare questo limite. Di seguito sono riportate le limitazioni del valore:
-
I caratteri non ASCII verranno rimossi.
Se il nome dell'origine non contiene alcun carattere ASCII, verrà convertito in <non-ASCII input>.
Limitazioni e considerazioni relative ai parametri della velocità di trasmissione effettiva
-
DataFrame e DataFrame based DynamicFrame (ad esempio JDBC, lettura da parquet su Amazon S3) sono supportati, mentre quelli DynamicFrame basati su RDD (ad esempio la lettura di csv, json su Amazon S3, ecc.) non sono supportati. Tecnicamente, tutte le letture e le scritture visibili sull'interfaccia utente di Spark sono supportate.
-
Il parametro
recordsRead
viene emesso se l'origine dati è una tabella di catalogo e il formato è JSON, CSV, testo o Iceberg. -
I parametri
glue.driver.throughput.recordsWritten
,glue.driver.throughput.bytesWritten
eglue.driver.throughput.filesWritten
non sono disponibili nelle tabelle JDBC e Iceberg. -
I parametri potrebbero subire ritardi. Se il lavoro termina in circa un minuto, è possibile che in Metrics non sia presente alcuna metrica di throughput. Amazon CloudWatch