Preparazione dei dati di addestramento del classificatore

Per una classificazione personalizzata, si addestra il modello in modalità multiclasse o in modalità multietichetta. La modalità multiclasse associa una singola classe a ciascun documento. La modalità multi-etichetta associa una o più classi a ciascun documento. I formati dei file di input sono diversi per ogni modalità, quindi scegliete la modalità da utilizzare prima di creare i dati di allenamento.

Nota

La console Amazon Comprehend fa riferimento alla modalità multiclasse come modalità a etichetta singola.

La classificazione personalizzata supporta modelli addestrati con documenti di testo semplice e modelli addestrati con documenti nativi (come PDF, Word o immagini). Per ulteriori informazioni sui modelli di classificazione e sui tipi di documenti supportati, vedere. Modelli di classificazione della formazione

Per preparare i dati per addestrare un modello di classificatore personalizzato:

Identifica le classi che desideri che questo classificatore analizzi. Decidi quale modalità usare (multiclasse o multi-etichetta).
Decidi il tipo di modello di classificatore, in base al fatto che il modello sia destinato all'analisi di documenti di testo semplice o di documenti semistrutturati.
Raccogli esempi di documenti per ciascuna classe. Per i requisiti minimi di formazione, vedereQuote generali per la classificazione dei documenti.
Per un modello in testo semplice, scegliete il formato del file di addestramento da utilizzare (file CSV o file manifesto aumentato). Per addestrare un modello di documento nativo, utilizzate sempre un file CSV.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Classificazione personalizzata

Formati di file di addestramento