Themenmodellierung - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Themenmodellierung

Sie können Amazon Comprehend verwenden, um den Inhalt einer Sammlung von Dokumenten zu untersuchen und gemeinsame Themen zu ermitteln. Sie können Amazon Comprehend beispielsweise eine Sammlung von Nachrichtenartikeln geben, und es bestimmt die Themen wie Sport, Richtlinie oder Sport. Der Text in den Dokumenten muss nicht mit Anmerkungen versehen werden.

Amazon Comprehend verwendet ein auf der Latent-Dirichlet-Zuweisung basierendes Lernmodell, um die Themen in einer Reihe von Dokumenten zu bestimmen. Es untersucht jedes Dokument, um den Kontext und die Bedeutung eines Wortes zu bestimmen. Der Satz von Wörtern, die häufig zum gleichen Kontext über den gesamten Dokumentsatz gehören, bildet ein Thema.

Ein Wort ist einem Thema in einem Dokument zugeordnet, basierend darauf, wie weit dieses Thema in einem Dokument vorherrschend ist und wie viel Affinität das Thema zum Wort hat. Dasselbe Wort kann verschiedenen Themen in verschiedenen Dokumenten zugeordnet werden, basierend auf der Themenverteilung in einem bestimmten Dokument.

Beispielsweise kann das Wort „Gluke“ in einem Artikel, der hauptsächlich über Sport spricht, dem Thema „sports“ zugewiesen werden, während dasselbe Wort in einem Artikel über „Medicine“ dem Thema „Medicine“ zugewiesen wird.

Jedes einem Thema zugeordnete Wort erhält eine Gewichtung, die angibt, wie stark das Wort bei der Definition des Themas hilft. Die Gewichtung gibt an, wie oft das Wort im Thema im Vergleich zu anderen Wörtern im Thema über den gesamten Dokumentsatz hinweg vorkommt.

Für die genauesten Ergebnisse sollten Sie Amazon Comprehend den größtmöglichen Korpus zur Verfügung stellen, mit dem Sie arbeiten können. Um die besten Ergebnisse zu erzielen:

  • Sie sollten mindestens 1 000 Dokumente in jedem Themenmodellierungsauftrag verwenden.

  • Jedes Dokument sollte mindestens 3 Sätze lang sein.

  • Wenn ein Dokument hauptsächlich aus numerischen Daten besteht, sollten Sie es aus dem Korpus entfernen.

Die Themenmodellierung ist ein asynchroner Prozess. Sie senden Ihre Liste der Dokumente mithilfe der -StartTopicsDetectionJobOperation aus einem Amazon S3-Bucket an Amazon Comprehend. Die Antwort wird an einen Amazon S3-Bucket gesendet. Sie können sowohl den Eingabe- als auch den Ausgabe-Bucket konfigurieren. Rufen Sie eine Liste der Themenmodellierungsaufträge ab, die Sie mit der -ListTopicsDetectionJobsOperation übermittelt haben, und zeigen Sie Informationen zu einem Auftrag mit der -DescribeTopicsDetectionJobOperation an. Inhalte, die an Amazon-S3-Buckets geliefert werden, können Kundeninhalte enthalten. Weitere Informationen zum Entfernen sensibler Daten finden Sie unter Wie entleere ich einen S3 Bucket? oder Wie lösche ich einen S3 Bucket?.

Dokumente müssen in Textdateien im UTF-8-Format vorliegen. Sie können Ihre Dokumente auf zwei Arten einreichen. Die folgende Tabelle zeigt die Optionen.

Format Beschreibung
Ein Dokument pro Datei Jede Datei enthält ein Eingabedokument. Dies eignet sich am besten für Sammlungen großer Dokumente.
Ein Dokument pro Zeile

Die Eingabe ist eine einzelne Datei. Jede Zeile in der Datei wird als Dokument betrachtet. Dies eignet sich am besten für kurze Dokumente, z. B. Social-Media-Beiträge.

Jede Zeile muss mit einem Zeilenvorschub (LF, \n), einem Zeilenumlauf (CR, \r) oder beidem (CRLF, \r\n) enden. Das Unicode-Zeilentrennzeichen (u+2028) kann nicht verwendet werden, um eine Zeile zu beenden.

Weitere Informationen finden Sie unter -InputDataConfigDatentyp.

Nachdem Amazon Comprehend Ihre Dokumentensammlung verarbeitet hat, gibt es ein komprimiertes Archiv mit zwei Dateien zurück, topic-terms.csv und doc-topics.csv. Weitere Informationen zur Ausgabedatei finden Sie unter OutputDataConfig.

Die erste Ausgabedatei, topic-terms.csv, ist eine Liste von Themen in der Sammlung. Für jedes Thema enthält die Liste standardmäßig die wichtigsten Begriffe nach Thema entsprechend ihrer Gewichtung. Wenn Sie Amazon Comprehend beispielsweise eine Sammlung von Trichterartikeln geben, könnte es Folgendes zurückgeben, um die ersten beiden Themen in der Sammlung zu beschreiben:

Thema Begriff Gewicht
000 Team 0,118533
000 game 0,106072
000 player 0,031625
000 Saison 0.023633
000 spielen 0,02118
000 Fuß 0,024454
000 Kabel 0,016012
000 Spiele 0.016191
000 Fußball 0,015049
000 Quartalsrückstand 0,014239
001 Kabel 0,205236
001 Lebensmittel 0,040686
001 Minuten 0,036062
001 hinzufügen 0,029697
001 Kabel 0,028789
001 Kabel 0,021254
001 Kabel 0,022205
001 Kabel 0,020040
001 Lebensmittel 0,016588
001 Glühbir 0,015101

Die Gewichtungen stellen eine Wahrscheinlichkeitsverteilung über die Wörter in einem bestimmten Thema dar. Da Amazon Comprehend nur die 10 wichtigsten Wörter für jedes Thema zurückgibt, werden die Gewichtungen nicht auf 1,0 summiert. In den seltenen Fällen, in denen weniger als 10 Wörter in einem Thema enthalten sind, werden die Gewichtungen auf 1,0 summiert.

Die Wörter werden nach ihrer diskriminativen Potenz sortiert, indem sie sich ihr Vorkommen in allen Themen ansehen. In der Regel entspricht dies ihrer Gewichtung, aber in einigen Fällen, z. B. den Wörtern „Play“ und „Höfe“ in der Tabelle, führt dies zu einer Reihenfolge, die nicht mit der Gewichtung identisch ist.

Sie können die Anzahl der zurückzugebenden Themen angeben. Wenn Sie beispielsweise Amazon Comprehend bitten, 25 Themen zurückzugeben, werden die 25 wichtigsten Themen in der Sammlung zurückgegeben. Amazon Comprehend kann bis zu 100 Themen in einer Sammlung erkennen. Wählen Sie die Anzahl der Themen basierend auf Ihrem Wissen über die Domain aus. Es kann einige Experimente dauern, bis die richtige Zahl erreicht ist.

Die zweite Datei, doc-topics.csv, listet die einem Thema zugeordneten Dokumente und den Anteil des Dokuments auf, das sich mit dem Thema befasst. Wenn Sie angegeben haben, wird ONE_DOC_PER_FILE das Dokument durch den Dateinamen identifiziert. Wenn Sie angegeben haben, wird ONE_DOC_PER_LINE das Dokument durch den Dateinamen und die mit 0 indizierte Zeilennummer innerhalb der Datei identifiziert. Amazon Comprehend könnte beispielsweise Folgendes für eine Sammlung von Dokumenten zurückgeben, die mit einem Dokument pro Datei übermittelt werden:

Dokument Thema Anteil
sample-doc1 000 0,999330137
sample-doc2 000 0,998532187
sample-doc3 000 0,998384574
...    
sample-docN 000 3.57E-04

Amazon Comprehend verwendet Informationen aus dem Datensatz Lemmatization Lists von MBM , der hier unter der Open Database License (ODbL) v1.0 verfügbar gemacht wird.