Uso di classificatori nella console AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Uso di classificatori nella console AWS Glue

Un classificatore determina lo schema dei dati. Puoi scrivere un classificatore personalizzato e puntarvi da AWS Glue.

Visualizzazione dei classificatori

Per visualizzare un elenco di tutti i classificatori creati, apri la console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/ e scegli la scheda Classifiers (Classificatori).

Nell'elenco sono riportate le seguenti proprietà per ogni classificatore:

  • Classifier (Classificatore) – Il nome del classificatore. Quando crei un classificatore, devi specificarne il nome.

  • Classification (Classificazione) – Il tipo di classificazione delle tabelle dedotte dal classificatore.

  • Last updated (Ultimo aggiornamento) – L'ultima volta in cui è stato aggiornato il classificatore.

Gestione dei classificatori

Nell'elenco Classifiers (Classificatori) nella console AWS Glue puoi aggiungere, modificare ed eliminare classificatori. Per visualizzare ulteriori dettagli per un classificatore, scegli il nome nell'elenco. I dettagli sono le informazioni cha hai definito al momento della creazione del classificatore.

Creazione dei classificatori

Per aggiungere un classificatore nella console AWS Glue, scegli Add classifier (Aggiungi classificatore). Quando definisci un classificatore, specifichi i valori per le seguenti opzioni:

  • Classifier name (Nome del classificatore) – Fornisci un nome univoco per il tuo classificatore.

  • Classifier type (Tipo di classificazione) – Il tipo di classificazione delle tabelle dedotte dal classificatore.

  • Last updated (Ultimo aggiornamento) – L'ultima volta in cui è stato aggiornato il classificatore.

Nome del classificatore

Fornisci un nome univoco per il tuo classificatore.

Tipo di classificatore

Scegli il tipo di classificatore da creare.

A seconda del tipo di classificatore scelto, configurare le seguenti proprietà per il classificatore:

Grok
  • Classificazione

    Descrivi il formato o il tipo di dati classificati o fornisci un'etichetta personalizzata.

  • Pattern grok

    Viene utilizzato per analizzare i dati in uno schema strutturato. Il pattern grok è composto da modelli denominati che descrivono il formato del datastore. Puoi scrivere questo pattern grok usando il modello predefinito denominato fornito da AWS Glue e i modelli personalizzati che scrivi e includi nel campo Custom patterns (Modelli personalizzati). Anche se i risultati dei debugger grok potrebbero non corrispondere esattamente ai risultati di AWS Glue, ti consigliamo di provare il modello usando alcuni dati di esempio con un debugger grok. Puoi trovare i debugger grok sul Web. I modelli predefiniti denominati forniti da AWS Glue sono generalmente compatibili con i modelli grok disponibili nel Web.

    Crea il tuo pattern grok aggiungendo iterativamente i modelli denominati e controlla i risultati in un debugger. Questa attività garantisce che i dati vengano analizzati quando il crawler AWS Glue esegue il pattern grok.

  • Pattern personalizzati

    Per i classificatori grok, questi sono elementi costitutivi facoltativi per il Grok pattern (Pattern grok) che scrivi. Quando i modelli integrati non sono in grado di analizzare i dati, potrebbe essere necessario scrivere un modello personalizzato. Questi modelli personalizzati sono definiti in questo campo e referenziati nel campo Grok pattern (Pattern grok). Ciascun modello personalizzato è definito su una riga separata. Proprio come i modelli integrati, è costituito da una definizione di modello denominato che utilizza la sintassi di espressione regolare (regex).

    Ad esempio, di seguito è riportato il nome MESSAGEPREFIX seguito da una definizione di espressione regolare da applicare ai dati per determinare se segue il modello.

    MESSAGEPREFIX .*-.*-.*-.*-.*
XML
  • Tag di riga

    Per i classificatori XML, questo è il nome del tag XML che definisce una riga di tabella nel documento XML. Digita il nome senza parentesi angolari < >. Il nome deve rispettare le regole XML relative ai tag.

    Per ulteriori informazioni, consulta Scrittura di classificatori personalizzati XML.

JSON
  • Percorso JSON

    Per i classificatori JSON, questo è il percorso JSON dell'oggetto, della matrice o del valore che definisce una riga della tabella creata. Digita il nome nella sintassi JSON con punti o parentesi usando gli operatori supportati in AWS Glue.

    Per ulteriori informazioni, vedi l'elenco degli operatori in Scrittura di classificatori personalizzati JSON.

CSV
  • Delimitatore di colonna

    Un singolo carattere o simbolo personalizzato per indicare il separatore di ogni voce di colonna nella riga. Scegli il delimitatore dall'elenco o scegli Other per immettere un delimitatore personalizzato.

  • Simbolo di virgolette

    Un singolo carattere o simbolo personalizzato per indicare la combinazione dei contenuti in un singolo valore di colonna. Deve essere diverso dal delimitatore di colonna. Scegli il simbolo di virgolette dall'elenco o scegli Other per immettere delle virgolette personalizzate.

  • Intestazioni di colonna

    Indica il comportamento per il modo in cui le intestazioni di colonna devono essere rilevate nel file CSV. È possibile scegliere Has headings, No headings, oppure Detect headings. Se il file CSV personalizzato include le intestazioni di colonna, inserisci un elenco di intestazioni di colonna delimitate da virgole.

  • Consenti i file con una singola colonna

    Per essere classificato come CSV, i dati devono avere almeno due colonne e due righe di dati. Utilizza questa opzione per consentire l'elaborazione dei file che contengono una sola colonna.

  • Taglia lo spazio vuoto prima dell'identificazione dei valori di colonna

    Questa opzione specifica se tagliare i valori prima di individuare il tipo dei valori di colonna.

  • Tipo di dati personalizzato

    (Facoltativo) - Inserisci tipi di dati personalizzati in un elenco delimitato da virgole. I tipi di dati supportati sono: "BINARY", "BOOLEAN", "DATE", "DECIMAL", "DOUBLE", "FLOAT", "INT", "LONG", "SHORT", "STRING", "TIMESTAMP".

  • SerDe CSV

    (Facoltativo) - Un SerDe per l'elaborazione del file CSV nel classificatore che verrà applicato in Catalogo dati. Scegli tra Open CSV SerDe, Lazy Simple SerDe o None. È possibile specificare il valore None quando si desidera che il crawler esegua il rilevamento.

Per ulteriori informazioni, consulta Scrittura di classificatori personalizzati.