AWS Sistemi tipo Glue - AWS Aderenza

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Sistemi tipo Glue

AWS Glue utilizza sistemi di tipo multiplo per fornire un'interfaccia versatile su sistemi di dati che archiviano i dati in modi molto diversi. Questo documento chiarisce le ambiguità dei sistemi e degli standard di dati di tipo AWS Glue.

AWS Tipi di Glue Data Catalog

Il catalogo dati è un registro di tabelle e campi archiviati in vari sistemi di dati, un metastore. Quando i componenti AWS Glue, come AWS i crawler AWS Glue e i job Glue with Spark, scrivono nel Data Catalog, lo fanno con un sistema di tipi interno per tracciare i tipi di campi. Questi valori sono mostrati nella colonna Tipo di dati dello schema della tabella nella AWS Glue Console. Questo sistema dei tipi è basato sul sistema dei tipi di Apache Hive. Per ulteriori informazioni sul sistema dei tipi di Apache Hive, consulta la sezione Tipi nella wiki di Apache Hive. Per ulteriori informazioni su tipi e supporti specifici, gli esempi sono forniti nella AWS Glue Console, come parte di Schema Builder.

Convalida, compatibilità e altri usi

Il catalogo dati non convalida i tipi scritti nei campi del tipo. Quando i componenti AWS Glue leggono e scrivono nel Data Catalog, saranno compatibili tra loro. AWS I componenti Glue mirano inoltre a preservare un alto grado di compatibilità con i tipi Hive. Tuttavia, i componenti AWS Glue non garantiscono la compatibilità con tutti i tipi di Hive. Ciò consente l'interoperabilità con strumenti come Athena DDL quando si lavora con le tabelle nel Data Catalog.

Poiché il catalogo dati non convalida i tipi, altri servizi possono utilizzare il catalogo dati per tenere traccia dei tipi utilizzando sistemi strettamente conformi al sistema dei tipi di Hive o a qualsiasi altro sistema.

Tipi negli script AWS Glue with Spark

Quando uno script AWS Glue with Spark interpreta o trasforma un set di datiDynamicFrame, forniamo una rappresentazione in memoria del set di dati così come viene utilizzato nello script. L'obiettivo di un DynamicFrame è simile a quello del DataFrame di Spark: modella il set di dati in modo che Spark possa pianificare ed eseguire trasformazioni sui dati. Garantiamo che la rappresentazione del tipo di DynamicFrame sia intercompatibile con il DataFrame fornendo i metodi toDF e fromDF.

Se le informazioni sul tipo possono essere inferite o fornite a un DataFrame, possono essere inferite o fornite a un DynamicFrame, se non diversamente documentato. Quando forniamo lettori o scrittori ottimizzati per formati di dati specifici, se Spark è in grado di leggere o scrivere i tuoi dati, i nostri lettori e scrittori forniti saranno in grado di farlo, ad esclusione delle limitazioni documentate. Per ulteriori informazioni su lettori e scrittori, consulta Opzioni del formato dati per input e output in AWS Glue per Spark.

Il tipo di scelta

Il DynamicFrames fornisce un meccanismo per modellare i campi in un set di dati il cui valore può avere tipi incoerenti su disco tra le righe. Ad esempio, un campo può contenere un numero memorizzato come stringa in alcune righe e un numero intero in altre. Questo meccanismo è un tipo in memoria denominato Choice. Forniamo trasformazioni, come il ResolveChoice metodo, per risolvere le colonne Choice in un tipo concreto. AWS Glue non ETL scriverà il tipo Choice nel Data Catalog durante il normale funzionamento; i tipi Choice esistono solo nel contesto dei modelli di DynamicFrame memoria dei set di dati. Per un esempio di utilizzo del tipo Choice, consulta Esempio di codice: preparazione dei dati utilizzando ResolveChoice, Lambda e ApplyMapping.

AWS Tipi di Glue Crawler

I crawler mirano a produrre uno schema coerente e utilizzabile per il set di dati, quindi a memorizzarlo in Data Catalog per utilizzarlo in altri componenti AWS Glue e in Athena. I crawler gestiscono i tipi come descritto nella sezione precedente sul catalogo dati, AWS Tipi di Glue Data Catalog. Per produrre un tipo utilizzabile negli scenari di tipo "Choice", in cui una colonna contiene valori di due o più tipi, i crawler creeranno un tipo struct che modella i tipi potenziali.