Modelagem de tópicos - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Modelagem de tópicos

Você pode usar o Amazon Comprehend para examinar o conteúdo de uma coleção de documentos e determinar temas comuns. Por exemplo, você pode fornecer ao Amazon Comprehend uma coleção de artigos de notícias e ele determinará os assuntos, como esportes, política ou entretenimento. O texto nos documentos não precisa estar anotado.

O Amazon Comprehend usa um modelo de aprendizado baseado na alocação latente de Dirichlet para determinar os tópicos em um conjunto de documentos. Ele examina cada documento para determinar o contexto e o significado de uma palavra. O conjunto de palavras que pertencem frequentemente ao mesmo contexto em todo o conjunto do documento compõe um tópico.

Uma palavra é associada a um tópico em um documento com base na prevalência desse tópico em um documento e na afinidade que o tópico tem com a palavra. A mesma palavra pode ser associada a tópicos diferentes em documentos diferentes com base na distribuição de tópicos em um documento específico.

Por exemplo, a palavra “glicose” em um artigo que fala predominantemente sobre esportes pode ser atribuída ao tópico “esportes”, enquanto a mesma palavra em um artigo sobre “medicina” será atribuída ao tópico “medicina”.

Cada palavra associada a um tópico receberá um peso que indica o quanto a palavra ajuda a definir o tópico. O peso é uma indicação de quantas vezes a palavra ocorre no tópico em comparação com outras palavras no tópico, em todo o conjunto de documentos.

Para obter resultados mais precisos, você deve fornecer ao Amazon Comprehend o maior corpo possível com o qual trabalhar. Para obter os melhores resultados:

  • Você deve usar pelo menos 1.000 documentos em cada trabalho de modelagem de tópico.

  • Cada documento deve ter pelo menos 3 frases.

  • Se um documento consistir principalmente em dados numéricos, você deverá removê-lo do corpo.

A modelagem de tópicos é um processo assíncrono. Você envia sua lista de documentos para o Amazon Comprehend a partir de um bucket do Amazon S3 usando a operação. StartTopicsDetectionJob A resposta é enviada para um bucket do Amazon S3. Você pode configurar os buckets de entrada e saída. Obtenha uma lista dos trabalhos de modelagem de tópicos que você enviou usando a ListTopicsDetectionJobsoperação e visualize informações sobre um trabalho usando a DescribeTopicsDetectionJoboperação. O conteúdo entregue aos buckets do Amazon S3 pode conter conteúdo do cliente. Para obter mais informações sobre a remoção de dados confidenciais, consulte Como faço para esvaziar um bucket do S3? ou Como faço para excluir um bucket do S3?.

Os documentos devem ser arquivos de texto no formato UTF-8. Você pode enviar seus documentos de duas maneiras. A tabela a seguir mostra as opções.

Formato Descrição
Um documento por arquivo Cada arquivo contém um documento de entrada. Essa opção é melhor para coleções de documentos grandes.
Um documento por linha

A entrada é um único arquivo. Cada linha no arquivo é considerada um documento. Essa opção é melhor para documentos curtos, como publicações em mídias sociais.

Cada linha deve terminar com uma alimentação de linha (LF, \n), um retorno de carro (CR, \r) ou ambos (CRLF, \r\n). Não é possível usar o separador de linha Unicode (u+2028) para finalizar uma linha.

Para obter mais informações, consulte o tipo de dados InputDataConfig.

Depois que o Amazon Comprehend processar sua coleção de documentos, ele retornará um arquivo compactado contendo dois arquivos, topic-terms.csv e doc-topics.csv. Para obter mais informações sobre o arquivo de saída, consulte OutputDataConfig.

O primeiro arquivo de saída, topic-terms.csv, é uma lista de tópicos na coleção. Para cada tópico, a lista inclui por padrão os principais termos por tópico de acordo com seu peso. Por exemplo, se você der ao Amazon Comprehend uma coleção de artigos de jornal, ele poderá retornar o seguinte para descrever os dois primeiros tópicos da coleção:

Tópico Prazo Weight
000 time 0,18533
000 jogo 0,106072
000 player 0,031625
000 temporada 0.023633
000 jogar 0,021118
000 campo 0,024454
000 treinador 0.016012
000 jogos 0,016191
000 futebol 0,015049
000 quarto zagueiro 0,014239
001 copo 0,205236
001 alimento 0.040686
001 minutos 0,036062
001 adicionar 0.029697
001 colher de sopa 0,028789
001 óleo 0,021254
001 pimenta 0.022205
001 colher de chá 0,020040
001 vinho 0,016588
001 açúcar 0,015101

Os pesos representam uma distribuição da probabilidade em relação às palavras em um determinado tópico. Como o Amazon Comprehend retorna somente as 10 palavras principais de cada tópico, os pesos não somarão 1,0. Nos raros casos em que houver menos de 10 palavras em um tópico, os pesos somarão 1,0.

As palavras são classificadas por seu poder discriminativo, observando sua ocorrência em todos os tópicos. Normalmente, isso é o mesmo que seu peso, mas em alguns casos, como as palavras “jogar” e “campo” na tabela, isso resulta em uma ordem que não é igual ao peso.

Você pode especificar o número de tópicos que o sistema deve retornar. Por exemplo, se você pedir ao Amazon Comprehend que retorne 25 tópicos, ele retornará os 25 tópicos mais proeminentes da coleção. O Amazon Comprehend pode detectar até 100 tópicos em uma coleção. Escolha o número de tópicos com base no seu conhecimento do domínio. Talvez seja necessário experimentar um pouco para chegar ao número correto.

O segundo arquivo, doc-topics.csv, lista os documentos associados a um tópico e a proporção do documento relacionada ao tópico. Se você tiver especificado ONE_DOC_PER_FILE, o documento será identificado pelo nome do arquivo. Se você tiver especificado ONE_DOC_PER_LINE, o documento será identificado pelo nome do arquivo e pelo número da linha indexada em 0 dentro do arquivo. Por exemplo, o Amazon Comprehend pode retornar o seguinte para uma coleção de documentos enviados com um documento por arquivo:

Documento Tópico Proporção
doc-exemplo1 000 0,999330137
doc-exemplo2 000 0,998532187
doc-exemplo3 000 0,998384574
...    
doc-exemploN 000 3,57E-04

O Amazon Comprehend utiliza informações do conjunto de dados Lemmatization Lists da MBM, que é disponibilizado aqui sob a licença Open Database (ODbL) v1.0.