Modellazione degli argomenti - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modellazione degli argomenti

Puoi usare Amazon Comprehend per esaminare il contenuto di una raccolta di documenti per determinare temi comuni. Ad esempio, puoi fornire ad Amazon Comprehend una raccolta di articoli di notizie che determinerà gli argomenti, come sport, politica o intrattenimento. Il testo nei documenti non deve essere annotato.

Amazon Comprehend utilizza un modello di apprendimento basato sull'allocazione di dirichlet latenti per determinare gli argomenti in un set di documenti. Esamina ogni documento per determinare il contesto e il significato di una parola. L'insieme di parole che spesso appartengono allo stesso contesto nell'intero set di documenti costituisce un argomento.

Una parola viene associata a un argomento in un documento in base alla prevalenza di tale argomento in un documento e all'affinità dell'argomento con la parola. La stessa parola può essere associata a diversi argomenti in diversi documenti in base alla distribuzione degli argomenti in un determinato documento.

Ad esempio, la parola «glucosio» in un articolo che parla principalmente di sport può essere assegnata all'argomento «sport», mentre la stessa parola in un articolo sulla «medicina» verrà assegnata all'argomento «medicina».

A ogni parola associata a un argomento viene assegnato un peso che indica in che misura la parola contribuisce a definire l'argomento. Il peso è un'indicazione di quante volte la parola ricorre nell'argomento rispetto alle altre parole dell'argomento, nell'intero set di documenti.

Per ottenere risultati più accurati, dovresti fornire ad Amazon Comprehend il corpus più ampio possibile con cui lavorare. Per ottenere risultati ottimali:

  • È necessario utilizzare almeno 1.000 documenti in ogni lavoro di modellazione tematica.

  • Ogni documento deve contenere almeno 3 frasi.

  • Se un documento è composto principalmente da dati numerici, è necessario rimuoverlo dal corpus.

La modellazione degli argomenti è un processo asincrono. Invii il tuo elenco di documenti ad Amazon Comprehend da un bucket Amazon S3 utilizzando l'operazione. StartTopicsDetectionJob La risposta viene inviata a un bucket Amazon S3. Puoi configurare sia i bucket di input che di output. Visualizzate un elenco degli argomenti relativi ai lavori di modellazione inviati utilizzando l'ListTopicsDetectionJobsoperazione e visualizzate le informazioni su un lavoro che utilizza l'DescribeTopicsDetectionJoboperazione. I contenuti distribuiti ai bucket Amazon S3 potrebbero contenere informazioni dei clienti. Per ulteriori informazioni sulla rimozione di dati sensibili, vedi Come svuotare un bucket S3? o Come eliminare un bucket S3?.

I documenti devono essere in file di testo in formato UTF-8. Puoi inviare i tuoi documenti in due modi. La tabella seguente mostra le opzioni.

Formato Descrizione
Un documento per file Ogni file contiene un documento di input. Questa opzione è ideale per raccolte di documenti di grandi dimensioni.
Un documento per riga

L'input è un singolo file. Ogni riga del file è considerata un documento. Questa opzione è ideale per documenti brevi, come i post sui social media.

Ogni riga deve terminare con un'alimentazione di linea (LF,\n), un valore di ritorno (CR,\ r) o entrambi (CRLF,\ r\n). Il separatore di riga Unicode (u+2028) non può essere usato per terminare una riga.

Per ulteriori informazioni, consulta il tipo di dati. InputDataConfig

Dopo aver elaborato la tua raccolta di documenti, Amazon Comprehend restituisce un archivio compresso contenente due file e. topic-terms.csv doc-topics.csv Per ulteriori informazioni sul file di output, consulta. OutputDataConfig

Il primo file di outputtopic-terms.csv,, è un elenco di argomenti della raccolta. Per ogni argomento, l'elenco include, per impostazione predefinita, i termini principali per argomento in base al loro peso. Ad esempio, se offri ad Amazon Comprehend una raccolta di articoli di giornale, potrebbe restituire quanto segue per descrivere i primi due argomenti della raccolta:

Argomento Termine Weight
000 squadra 0.118533
000 game 0,106072
000 player (giocatore) 0,031625
000 stagione 0.023633
000 giocare 0,021118
000 cortile 0,024454
000 allenatore 0.016012
000 giochi 0.016191
000 calcio 0.015049
000 terzino 0,014239
001 tazza 0,205236
001 cibo 0.040686
001 minuti 0,036062
001 aggiungi 0,029697
001 cucchiaio 0,028789
001 petrolio 0,021254
001 pepe 0.022205
001 cucchiaino 0,020040
001 vino 0,016588
001 zucchero 0,015101

I pesi rappresentano una distribuzione di probabilità sulle parole di un determinato argomento. Poiché Amazon Comprehend restituisce solo le prime 10 parole per ogni argomento, la somma dei pesi non sarà 1,0. Nei rari casi in cui un argomento contiene meno di 10 parole, la somma dei pesi sarà 1,0.

Le parole vengono ordinate in base al loro potere discriminante osservando la loro presenza in tutti gli argomenti. In genere questo valore corrisponde al loro peso, ma in alcuni casi, ad esempio quando compaiono le parole «play» e «yard» nella tabella, il risultato è un ordine diverso dal peso.

È possibile specificare il numero di argomenti da restituire. Ad esempio, se chiedi ad Amazon Comprehend di restituire 25 argomenti, restituirà i 25 argomenti più importanti della raccolta. Amazon Comprehend è in grado di rilevare fino a 100 argomenti in una raccolta. Scegli il numero di argomenti in base alla tua conoscenza del dominio. Potrebbero essere necessari alcuni esperimenti per arrivare al numero corretto.

Il secondo filedoc-topics.csv, elenca i documenti associati a un argomento e la parte del documento che riguarda l'argomento. Se è stato specificatoONE_DOC_PER_FILE, il documento viene identificato dal nome del file. Se è stato specificato, ONE_DOC_PER_LINE il documento viene identificato dal nome del file e dal numero di riga indicizzato a 0 all'interno del file. Ad esempio, Amazon Comprehend potrebbe restituire quanto segue per una raccolta di documenti inviati con un documento per file:

Documento Argomento Proporzione
sample-doc1 000 0,999330137
esempio-doc2 000 0,998532187
esempio-doc3 000 0,998384574
...    
Esempio: DOCN 000 3,57E-04

Amazon Comprehend utilizza le informazioni del set di dati delle liste di lemmatizzazione di MBM, reso disponibile qui con la licenza Open database (ODbL) v1.0.