Modellazione degli argomenti

Puoi usare Amazon Comprehend per esaminare il contenuto di una raccolta di documenti per determinare temi comuni. Ad esempio, puoi fornire ad Amazon Comprehend una raccolta di articoli di notizie che determinerà gli argomenti, come sport, politica o intrattenimento. Non è necessario che il testo nei documenti sia annotato.

Amazon Comprehend utilizza un modello di apprendimento basato sull'allocazione di dirichlet latenti per determinare gli argomenti in un set di documenti. Esamina ogni documento per determinare il contesto e il significato di una parola. L'insieme di parole che spesso appartengono allo stesso contesto nell'intero set di documenti costituisce un argomento.

Una parola viene associata a un argomento in un documento in base alla prevalenza di tale argomento in un documento e all'affinità dell'argomento con la parola. La stessa parola può essere associata a diversi argomenti in diversi documenti in base alla distribuzione degli argomenti in un determinato documento.

Ad esempio, la parola «glucosio» in un articolo che parla principalmente di sport può essere assegnata all'argomento «sport», mentre la stessa parola in un articolo sulla «medicina» verrà assegnata all'argomento «medicina».

A ogni parola associata a un argomento viene assegnato un peso che indica in che misura la parola contribuisce a definire l'argomento. Il peso è un'indicazione di quante volte la parola ricorre nell'argomento rispetto alle altre parole dell'argomento, nell'intero set di documenti.

Per ottenere risultati più accurati, dovresti fornire ad Amazon Comprehend il corpus più ampio possibile con cui lavorare. Per ottenere risultati ottimali:

È necessario utilizzare almeno 1.000 documenti in ogni lavoro di modellazione tematica.
Ogni documento deve contenere almeno 3 frasi.
Se un documento è composto principalmente da dati numerici, è necessario rimuoverlo dal corpus.

La modellazione degli argomenti è un processo asincrono. Invii il tuo elenco di documenti ad Amazon Comprehend da un bucket Amazon S3 utilizzando l'operazione. StartTopicsDetectionJob La risposta viene inviata a un bucket Amazon S3. Puoi configurare sia i bucket di input che di output. Visualizzate un elenco degli argomenti relativi ai lavori di modellazione inviati utilizzando l'ListTopicsDetectionJobsoperazione e visualizzate le informazioni su un lavoro che utilizza l'DescribeTopicsDetectionJoboperazione. I contenuti distribuiti ai bucket Amazon S3 potrebbero contenere informazioni dei clienti. Per ulteriori informazioni sulla rimozione di dati sensibili, vedi Come svuotare un bucket S3? o Come eliminare un bucket S3?.

I documenti devono essere in file di testo in formato UTF-8. Puoi inviare i tuoi documenti in due modi. Nella tabella seguente sono riportate le opzioni.

Formato	Descrizione
Un documento per file	Ogni file contiene un documento di input. Questa opzione è ideale per raccolte di documenti di grandi dimensioni.
Un documento per riga	L'input è un singolo file. Ogni riga nel file è considerata un documento. Questa opzione è ideale per documenti brevi, come i post sui social media. Ogni riga deve terminare con un'alimentazione di linea (LF,\n), un valore di ritorno (CR,\ r) o entrambi (CRLF,\ r\n). Il separatore di riga Unicode (u+2028) non può essere usato per terminare una riga.

Formato

Descrizione

Un documento per file

Ogni file contiene un documento di input. Questa opzione è ideale per raccolte di documenti di grandi dimensioni.

Un documento per riga

L'input è un singolo file. Ogni riga nel file è considerata un documento. Questa opzione è ideale per documenti brevi, come i post sui social media.

Ogni riga deve terminare con un'alimentazione di linea (LF,\n), un valore di ritorno (CR,\ r) o entrambi (CRLF,\ r\n). Il separatore di riga Unicode (u+2028) non può essere usato per terminare una riga.

Per maggiori informazioni, consulta il tipo di InputDataConfigdati.

Dopo aver elaborato la tua raccolta di documenti, Amazon Comprehend restituisce un archivio compresso contenente due file e. topic-terms.csv doc-topics.csv Per ulteriori informazioni sul file di output, consulta. OutputDataConfig

Il primo file di outputtopic-terms.csv,, è un elenco di argomenti della raccolta. Per ogni argomento, l'elenco include, per impostazione predefinita, i termini principali per argomento in base al loro peso. Ad esempio, se offri ad Amazon Comprehend una raccolta di articoli di giornale, potrebbe restituire quanto segue per descrivere i primi due argomenti della raccolta:

Argomento	Termine	Weight
000	squadra	0.118533
000	game	0,106072
000	player (giocatore)	0,031625
000	stagione	0.023633
000	giocare	0,021118
000	cortile	0,024454
000	allenatore	0.016012
000	giochi	0.016191
000	calcio	0.015049
000	terzino	0,014239
001	tazza	0,205236
001	cibo	0.040686
001	minuti	0,036062
001	aggiungi	0,029697
001	cucchiaio	0,028789
001	petrolio	0,021254
001	pepe	0.022205
001	cucchiaino	0,020040
001	vino	0,016588
001	zucchero	0,015101

I pesi rappresentano una distribuzione di probabilità sulle parole di un determinato argomento. Poiché Amazon Comprehend restituisce solo le prime 10 parole per ogni argomento, la somma dei pesi non sarà 1,0. Nei rari casi in cui un argomento contiene meno di 10 parole, la somma dei pesi sarà 1,0.

Le parole vengono ordinate in base al loro potere discriminante osservando la loro presenza in tutti gli argomenti. In genere questo valore corrisponde al loro peso, ma in alcuni casi, ad esempio quando compaiono le parole «play» e «yard» nella tabella, il risultato è un ordine diverso dal peso.

È possibile specificare il numero di argomenti da restituire. Ad esempio, se chiedi ad Amazon Comprehend di restituire 25 argomenti, restituirà i 25 argomenti più importanti della raccolta. Amazon Comprehend è in grado di rilevare fino a 100 argomenti in una raccolta. Scegli il numero di argomenti in base alla tua conoscenza del dominio. Potrebbero essere necessari alcuni esperimenti per arrivare al numero corretto.

Il secondo filedoc-topics.csv, elenca i documenti associati a un argomento e la parte del documento che riguarda l'argomento. Se è stato specificatoONE_DOC_PER_FILE, il documento viene identificato dal nome del file. Se è stato specificato, ONE_DOC_PER_LINE il documento viene identificato dal nome del file e dal numero di riga indicizzato a 0 all'interno del file. Ad esempio, Amazon Comprehend potrebbe restituire quanto segue per una raccolta di documenti inviati con un documento per file:

Documento	Argomento	Proporzione
sample-doc1	000	0,999330137
esempio-doc2	000	0,998532187
esempio-doc3	000	0,998384574
...
Esempio di Docn	000	3,57E-04

Amazon Comprehend utilizza le informazioni del set di dati delle liste di lemmatizzazione di MBM, reso disponibile qui con la licenza Open database (L) v1.0. ODb

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Amazon Comprehend personalizzato

Modalità di elaborazione dei documenti