Verificate i dati di allenamento - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Verificate i dati di allenamento

Dopo aver addestrato il modello, Amazon Comprehend verifica il modello di classificatore personalizzato. Se non fornisci un set di dati di test, Amazon Comprehend addestra il modello con il 90% dei dati di addestramento. Riserva il 10 percento dei dati di addestramento da utilizzare per i test. Se fornite un set di dati di test, i dati del test devono includere almeno un esempio per ogni etichetta univoca nel set di dati di addestramento.

Il test del modello fornisce metriche che è possibile utilizzare per stimare l'accuratezza del modello. La console visualizza le metriche nella sezione delle prestazioni del classificatore della pagina dei dettagli del classificatore nella console. Vengono inoltre restituite nei Metrics campi restituiti dall'operazione. DescribeDocumentClassifier

Nel seguente esempio di dati di addestramento, ci sono cinque etichetteDOCUMENTARY,DOCUMENTARY,FICTION, SCIENCE _DOCUMENTARY, ROMANTIC _COMEDY. Esistono tre classi uniche:DOCUMENTARY, SCIENCE _FICTION, ROMANTIC _COMEDY.

Colonna 1 Colonna 2
DOCUMENTARY testo del documento 1
DOCUMENTARY testo del documento 2
SCIENCE_FICTION testo del documento 3
DOCUMENTARY testo del documento 4
ROMANTIC_COMEDY testo del documento 5

Per la suddivisione automatica (in cui Amazon Comprehend riserva il 10% dei dati di addestramento da utilizzare per i test), se i dati di addestramento contengono esempi limitati di un'etichetta specifica, il set di dati di test può contenere zero esempi di tale etichetta. Ad esempio, se il set di dati di addestramento contiene 1000 istanze della DOCUMENTARY classe, 900 istanze di SCIENCE _ FICTION e una singola istanza della COMEDY classe ROMANTIC _, il set di dati di test potrebbe contenere 100 DOCUMENTARY e 90 SCIENCE FICTION istanze ROMANTIC _, ma nessuna COMEDY istanza _, poiché è disponibile un singolo esempio.

Dopo aver terminato l'addestramento del modello, le metriche di addestramento forniscono informazioni che potete utilizzare per decidere se il modello è sufficientemente preciso per le vostre esigenze.