Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Modellazione degli argomenti
Puoi usare Amazon Comprehend per esaminare il contenuto di una raccolta di documenti per determinare temi comuni. Ad esempio, puoi fornire ad Amazon Comprehend una raccolta di articoli di notizie che determinerà gli argomenti, come sport, politica o intrattenimento. Il testo nei documenti non deve essere annotato.
Amazon Comprehend utilizza un modello di apprendimento basato sull'allocazione di dirichlet latenti
Una parola viene associata a un argomento in un documento in base alla prevalenza di tale argomento in un documento e all'affinità dell'argomento con la parola. La stessa parola può essere associata a diversi argomenti in diversi documenti in base alla distribuzione degli argomenti in un determinato documento.
Ad esempio, la parola «glucosio» in un articolo che parla principalmente di sport può essere assegnata all'argomento «sport», mentre la stessa parola in un articolo sulla «medicina» verrà assegnata all'argomento «medicina».
A ogni parola associata a un argomento viene assegnato un peso che indica in che misura la parola contribuisce a definire l'argomento. Il peso è un'indicazione di quante volte la parola ricorre nell'argomento rispetto alle altre parole dell'argomento, nell'intero set di documenti.
Per ottenere risultati più accurati, dovresti fornire ad Amazon Comprehend il corpus più ampio possibile con cui lavorare. Per ottenere risultati ottimali:
-
È necessario utilizzare almeno 1.000 documenti in ogni lavoro di modellazione tematica.
-
Ogni documento deve contenere almeno 3 frasi.
-
Se un documento è composto principalmente da dati numerici, è necessario rimuoverlo dal corpus.
La modellazione degli argomenti è un processo asincrono. Invii il tuo elenco di documenti ad Amazon Comprehend da un bucket Amazon S3 utilizzando l'operazione. StartTopicsDetectionJob La risposta viene inviata a un bucket Amazon S3. Puoi configurare sia i bucket di input che di output. Visualizzate un elenco degli argomenti relativi ai lavori di modellazione inviati utilizzando l'ListTopicsDetectionJobsoperazione e visualizzate le informazioni su un lavoro che utilizza l'DescribeTopicsDetectionJoboperazione. I contenuti distribuiti ai bucket Amazon S3 potrebbero contenere informazioni dei clienti. Per ulteriori informazioni sulla rimozione di dati sensibili, vedi Come svuotare un bucket S3? o Come eliminare un bucket S3?.
I documenti devono essere in file di testo in formato UTF-8. Puoi inviare i tuoi documenti in due modi. La tabella seguente mostra le opzioni.
Formato | Descrizione |
---|---|
Un documento per file | Ogni file contiene un documento di input. Questa opzione è ideale per raccolte di documenti di grandi dimensioni. |
Un documento per riga | L'input è un singolo file. Ogni riga del file è considerata un documento. Questa opzione è ideale per documenti brevi, come i post sui social media. Ogni riga deve terminare con un'alimentazione di linea (LF,\n), un valore di ritorno (CR,\ r) o entrambi (CRLF,\ r\n). Il separatore di riga Unicode (u+2028) non può essere usato per terminare una riga. |
Per ulteriori informazioni, consulta il tipo di dati. InputDataConfig
Dopo aver elaborato la tua raccolta di documenti, Amazon Comprehend restituisce un archivio compresso contenente due file e. topic-terms.csv
doc-topics.csv
Per ulteriori informazioni sul file di output, consulta. OutputDataConfig
Il primo file di outputtopic-terms.csv
,, è un elenco di argomenti della raccolta. Per ogni argomento, l'elenco include, per impostazione predefinita, i termini principali per argomento in base al loro peso. Ad esempio, se offri ad Amazon Comprehend una raccolta di articoli di giornale, potrebbe restituire quanto segue per descrivere i primi due argomenti della raccolta:
Argomento | Termine | Weight |
---|---|---|
000 | squadra | 0.118533 |
000 | game | 0,106072 |
000 | player (giocatore) | 0,031625 |
000 | stagione | 0.023633 |
000 | giocare | 0,021118 |
000 | cortile | 0,024454 |
000 | allenatore | 0.016012 |
000 | giochi | 0.016191 |
000 | calcio | 0.015049 |
000 | terzino | 0,014239 |
001 | tazza | 0,205236 |
001 | cibo | 0.040686 |
001 | minuti | 0,036062 |
001 | aggiungi | 0,029697 |
001 | cucchiaio | 0,028789 |
001 | petrolio | 0,021254 |
001 | pepe | 0.022205 |
001 | cucchiaino | 0,020040 |
001 | vino | 0,016588 |
001 | zucchero | 0,015101 |
I pesi rappresentano una distribuzione di probabilità sulle parole di un determinato argomento. Poiché Amazon Comprehend restituisce solo le prime 10 parole per ogni argomento, la somma dei pesi non sarà 1,0. Nei rari casi in cui un argomento contiene meno di 10 parole, la somma dei pesi sarà 1,0.
Le parole vengono ordinate in base al loro potere discriminante osservando la loro presenza in tutti gli argomenti. In genere questo valore corrisponde al loro peso, ma in alcuni casi, ad esempio quando compaiono le parole «play» e «yard» nella tabella, il risultato è un ordine diverso dal peso.
È possibile specificare il numero di argomenti da restituire. Ad esempio, se chiedi ad Amazon Comprehend di restituire 25 argomenti, restituirà i 25 argomenti più importanti della raccolta. Amazon Comprehend è in grado di rilevare fino a 100 argomenti in una raccolta. Scegli il numero di argomenti in base alla tua conoscenza del dominio. Potrebbero essere necessari alcuni esperimenti per arrivare al numero corretto.
Il secondo filedoc-topics.csv
, elenca i documenti associati a un argomento e la parte del documento che riguarda l'argomento. Se è stato specificatoONE_DOC_PER_FILE
, il documento viene identificato dal nome del file. Se è stato specificato, ONE_DOC_PER_LINE
il documento viene identificato dal nome del file e dal numero di riga indicizzato a 0 all'interno del file. Ad esempio, Amazon Comprehend potrebbe restituire quanto segue per una raccolta di documenti inviati con un documento per file:
Documento | Argomento | Proporzione |
---|---|---|
sample-doc1 | 000 | 0,999330137 |
esempio-doc2 | 000 | 0,998532187 |
esempio-doc3 | 000 | 0,998384574 |
... | ||
Esempio: DOCN | 000 | 3,57E-04 |
Amazon Comprehend utilizza le informazioni del set di dati delle liste di lemmatizzazione di MBM, reso disponibile qui