Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS Sistemi dei tipi di Glue
AWS Glue utilizza vari sistemi dei tipi per fornire un'interfaccia versatile su sistemi di dati che archiviano i dati in modi molto diversi. Questo documento chiarisce i sistemi dei tipi e gli standard di dati di AWS Glue.
AWS Tipi di catalogo dati di Glue
Il catalogo dati è un registro di tabelle e campi archiviati in vari sistemi di dati, un metastore. Quando i componenti di AWS Glue, come AWS i crawler AWS Glue e i processi Glue con Spark, scrivono nel catalogo dati, lo fanno con un sistema dei tipi interno per tracciare i tipi di campi. Questi valori sono mostrati nella colonna Tipo di dati dello schema della tabella nella console AWS Glue. Questo sistema dei tipi è basato sul sistema dei tipi di Apache Hive. Per ulteriori informazioni sul sistema dei tipi di Apache Hive, consulta la sezione Tipi
Convalida, compatibilità e altri usi
Il catalogo dati non convalida i tipi scritti nei campi del tipo. Quando i componenti di AWS Glue leggono e scrivono nel catalogo dati, saranno compatibili tra loro. AWS I componenti di Glue mirano anche a preservare un elevato grado di compatibilità con i tipi di Hive. Tuttavia, i componenti di AWS Glue non garantiscono la compatibilità con tutti i tipi di Hive. Ciò consente l'interoperabilità con strumenti come Athena DDL quando si lavora con le tabelle nel catalogo dati.
Poiché il catalogo dati non convalida i tipi, altri servizi possono utilizzare il catalogo dati per tenere traccia dei tipi utilizzando sistemi strettamente conformi al sistema dei tipi di Hive o a qualsiasi altro sistema.
Tipi negli script in AWS Glue con Spark
Quando uno script di AWS Glue con Spark interpreta o trasforma un set di datiDynamicFrame
, forniamo una rappresentazione in memoria del set di dati così come viene utilizzato nello script. L'obiettivo di un DynamicFrame
è simile a quello del DataFrame
di Spark: modella il set di dati in modo che Spark possa pianificare ed eseguire trasformazioni sui dati. Garantiamo che la rappresentazione del tipo di DynamicFrame
sia intercompatibile con il DataFrame
fornendo i metodi toDF
e fromDF
.
Se le informazioni sul tipo possono essere inferite o fornite a un DataFrame
, possono essere inferite o fornite a un DynamicFrame
, se non diversamente documentato. Quando forniamo lettori o scrittori ottimizzati per formati di dati specifici, se Spark è in grado di leggere o scrivere i tuoi dati, i nostri lettori e scrittori forniti saranno in grado di farlo, ad esclusione delle limitazioni documentate. Per ulteriori informazioni su lettori e scrittori, consulta Opzioni del formato dati per input e output in AWS Glue per Spark.
Il tipo di scelta
Il DynamicFrames
fornisce un meccanismo per modellare i campi in un set di dati il cui valore può avere tipi incoerenti su disco tra le righe. Ad esempio, un campo può contenere un numero memorizzato come stringa in alcune righe e un numero intero in altre. Questo meccanismo è un tipo in memoria denominato Choice
. Forniamo trasformazioni come il ResolveChoice
metodo, per risolvere le colonne Choice in un tipo concreto. AWS Glue non ETL scriverà il tipo Choice nel catalogo dati nel normale corso dell'operazione; i tipi Choice esistono solo nel contesto dei modelli di DynamicFrame memoria dei set di dati. Per un esempio di utilizzo del tipo Choice, consulta Esempio di codice: preparazione dei dati utilizzando ResolveChoice, Lambda e ApplyMapping.
AWS Tipi di Crawler di Glue
I crawler mirano a produrre uno schema coerente e utilizzabile per il tuo set di dati, quindi lo archiviano in catalogo dati per utilizzarlo in altri componenti di AWS Glue e in Athena. I crawler gestiscono i tipi come descritto nella sezione precedente sul catalogo dati, AWS Tipi di catalogo dati di Glue. Per produrre un tipo utilizzabile negli scenari di tipo "Choice", in cui una colonna contiene valori di due o più tipi, i crawler creeranno un tipo struct
che modella i tipi potenziali.