Modelagem de tópicos

Você pode usar o Amazon Comprehend para examinar o conteúdo de uma coleção de documentos e determinar temas comuns. Por exemplo, você pode fornecer ao Amazon Comprehend uma coleção de artigos de notícias e ele determinará os assuntos, como esportes, política ou entretenimento. O texto nos documentos não precisa estar anotado.

O Amazon Comprehend usa um modelo de aprendizado baseado na alocação latente de Dirichlet para determinar os tópicos em um conjunto de documentos. Ele examina cada documento para determinar o contexto e o significado de uma palavra. O conjunto de palavras que pertencem frequentemente ao mesmo contexto em todo o conjunto do documento compõe um tópico.

Uma palavra é associada a um tópico em um documento com base na prevalência desse tópico em um documento e na afinidade que o tópico tem com a palavra. A mesma palavra pode ser associada a tópicos diferentes em documentos diferentes com base na distribuição de tópicos em um documento específico.

Por exemplo, a palavra “glicose” em um artigo que fala predominantemente sobre esportes pode ser atribuída ao tópico “esportes”, enquanto a mesma palavra em um artigo sobre “medicina” será atribuída ao tópico “medicina”.

Cada palavra associada a um tópico receberá um peso que indica o quanto a palavra ajuda a definir o tópico. O peso é uma indicação de quantas vezes a palavra ocorre no tópico em comparação com outras palavras no tópico, em todo o conjunto de documentos.

Para obter resultados mais precisos, você deve fornecer ao Amazon Comprehend o maior corpo possível com o qual trabalhar. Para obter os melhores resultados:

Você deve usar pelo menos 1.000 documentos em cada trabalho de modelagem de tópico.
Cada documento deve ter pelo menos 3 frases.
Se um documento consistir principalmente em dados numéricos, você deverá removê-lo do corpo.

A modelagem de tópicos é um processo assíncrono. Você envia sua lista de documentos para o Amazon Comprehend de um bucket do Amazon S3 usando a operação. StartTopicsDetectionJob A resposta é enviada para um bucket do Amazon S3. Você pode configurar os buckets de entrada e saída. Obtenha uma lista dos trabalhos de modelagem de tópicos que você enviou usando a ListTopicsDetectionJobsoperação e visualize informações sobre um trabalho usando a DescribeTopicsDetectionJoboperação. O conteúdo entregue aos buckets do Amazon S3 pode conter conteúdo do cliente. Para obter mais informações sobre a remoção de dados confidenciais, consulte Como faço para esvaziar um bucket do S3? ou Como faço para excluir um bucket do S3?.

Os documentos devem ser arquivos de texto no formato UTF-8. Você pode enviar seus documentos de duas maneiras. A tabela a seguir mostra as opções.

Formato	Descrição
Um documento por arquivo	Cada arquivo contém um documento de entrada. Essa opção é melhor para coleções de documentos grandes.
Um documento por linha	A entrada é um único arquivo. Cada linha no arquivo é considerada um documento. Essa opção é melhor para documentos curtos, como publicações em mídias sociais. Cada linha deve terminar com uma alimentação de linha (LF, \n), um retorno de carro (CR, \r) ou ambos (CRLF, \r\n). Não é possível usar o separador de linha Unicode (u+2028) para finalizar uma linha.

Formato

Descrição

Um documento por arquivo

Cada arquivo contém um documento de entrada. Essa opção é melhor para coleções de documentos grandes.

Um documento por linha

A entrada é um único arquivo. Cada linha no arquivo é considerada um documento. Essa opção é melhor para documentos curtos, como publicações em mídias sociais.

Cada linha deve terminar com uma alimentação de linha (LF, \n), um retorno de carro (CR, \r) ou ambos (CRLF, \r\n). Não é possível usar o separador de linha Unicode (u+2028) para finalizar uma linha.

Para obter mais informações, consulte o tipo de dados InputDataConfig.

Depois que o Amazon Comprehend processar sua coleção de documentos, ele retornará um arquivo compactado contendo dois arquivos, topic-terms.csv e doc-topics.csv. Para obter mais informações sobre o arquivo de saída, consulte OutputDataConfig.

O primeiro arquivo de saída, topic-terms.csv, é uma lista de tópicos na coleção. Para cada tópico, a lista inclui por padrão os principais termos por tópico de acordo com seu peso. Por exemplo, se você der ao Amazon Comprehend uma coleção de artigos de jornal, ele poderá retornar o seguinte para descrever os dois primeiros tópicos da coleção:

Tópico	Prazo	Weight
000	time	0,18533
000	jogo	0,106072
000	player	0,031625
000	temporada	0.023633
000	jogar	0,021118
000	campo	0,024454
000	treinador	0.016012
000	jogos	0.016191
000	futebol	0,015049
000	quarto zagueiro	0,014239
001	copo	0,205236
001	alimento	0.040686
001	minutos	0,036062
001	adicionar	0.029697
001	colher de sopa	0,028789
001	óleo	0,021254
001	pimenta	0.022205
001	colher de chá	0,020040
001	vinho	0.016588
001	açúcar	0,015101

Os pesos representam uma distribuição da probabilidade em relação às palavras em um determinado tópico. Como o Amazon Comprehend retorna somente as 10 palavras principais de cada tópico, os pesos não somarão 1,0. Nos raros casos em que houver menos de 10 palavras em um tópico, os pesos somarão 1,0.

As palavras são classificadas por seu poder discriminativo, observando sua ocorrência em todos os tópicos. Normalmente, isso é o mesmo que seu peso, mas em alguns casos, como as palavras “jogar” e “campo” na tabela, isso resulta em uma ordem que não é igual ao peso.

Você pode especificar o número de tópicos que o sistema deve retornar. Por exemplo, se você pedir ao Amazon Comprehend que retorne 25 tópicos, ele retornará os 25 tópicos mais proeminentes da coleção. O Amazon Comprehend pode detectar até 100 tópicos em uma coleção. Escolha o número de tópicos com base no seu conhecimento do domínio. Talvez seja necessário experimentar um pouco para chegar ao número correto.

O segundo arquivo, doc-topics.csv, lista os documentos associados a um tópico e a proporção do documento relacionada ao tópico. Se você tiver especificado ONE_DOC_PER_FILE, o documento será identificado pelo nome do arquivo. Se você tiver especificado ONE_DOC_PER_LINE, o documento será identificado pelo nome do arquivo e pelo número da linha indexada em 0 dentro do arquivo. Por exemplo, o Amazon Comprehend pode retornar o seguinte para uma coleção de documentos enviados com um documento por arquivo:

Documento	Tópico	Proporção
doc-exemplo1	000	0,999330137
doc-exemplo2	000	0,998532187
doc-exemplo3	000	0,998384574
...
doc-exemploN	000	3,57E-04

O Amazon Comprehend utiliza informações do conjunto de dados Lemmatization Lists da MBM, que é disponibilizado aqui sob a licença Open Database (L) v1.0. ODb

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Amazon Comprehend Custom

Modos de processamento de documentos