Themenmodellierung

Sie können Amazon Comprehend verwenden, um den Inhalt einer Sammlung von Dokumenten zu untersuchen, um gemeinsame Themen zu ermitteln. Sie können Amazon Comprehend beispielsweise eine Sammlung von Nachrichtenartikeln zur Verfügung stellen, und es bestimmt die Themen wie Sport, Politik oder Unterhaltung. Der Text in den Dokumenten muss nicht mit Anmerkungen versehen werden.

Amazon Comprehend verwendet ein auf Latent-Dirichlet-Zuordnung basierendes Lernmodell, um die Themen in einer Reihe von Dokumenten zu bestimmen. Es untersucht jedes Dokument, um den Kontext und die Bedeutung eines Wortes zu bestimmen. Die Wörter, die im gesamten Dokumentensatz häufig zum gleichen Kontext gehören, bilden ein Thema.

Ein Wort wird einem Thema in einem Dokument zugeordnet, je nachdem, wie häufig dieses Thema in einem Dokument vorkommt und wie viel Affinität das Thema zu dem Wort hat. Dasselbe Wort kann je nach Themenverteilung in einem bestimmten Dokument unterschiedlichen Themen in verschiedenen Dokumenten zugeordnet werden.

Beispielsweise kann das Wort „Glukose“ in einem Artikel, in dem es hauptsächlich um Sport geht, dem Thema „Sport“ zugeordnet werden, während dasselbe Wort in einem Artikel über „Medizin“ dem Thema „Medizin“ zugewiesen wird.

Jedem Wort, das einem Thema zugeordnet ist, wird eine Gewichtung zugewiesen, die angibt, wie sehr das Wort zur Definition des Themas beiträgt. Die Gewichtung gibt an, wie oft das Wort im gesamten Dokument im Thema im Vergleich zu anderen Wörtern des Themas vorkommt.

Um möglichst genaue Ergebnisse zu erzielen, sollten Sie Amazon Comprehend den größtmöglichen Korpus zur Verfügung stellen, mit dem Sie arbeiten können. Um die besten Ergebnisse zu erzielen:

Sie sollten für jeden Themenmodellierungsjob mindestens 1.000 Dokumente verwenden.
Jedes Dokument sollte mindestens 3 Sätze lang sein.
Wenn ein Dokument hauptsächlich aus numerischen Daten besteht, sollten Sie es aus dem Korpus entfernen.

Themenmodellierung ist ein asynchroner Prozess. Mithilfe dieses Vorgangs reichen Sie Ihre Dokumentenliste aus einem Amazon S3-Bucket an Amazon Comprehend ein. StartTopicsDetectionJob Die Antwort wird an einen Amazon S3 S3-Bucket gesendet. Sie können sowohl den Eingabe- als auch den Ausgabe-Bucket konfigurieren. Rufen Sie eine Liste der Themenmodellierungsaufträge ab, die Sie mithilfe der ListTopicsDetectionJobsOperation eingereicht haben, und zeigen Sie Informationen zu einem Job an, der die DescribeTopicsDetectionJobOperation verwendet. Inhalte, die an Amazon-S3-Buckets geliefert werden, können Kundeninhalte enthalten. Weitere Informationen zum Entfernen sensibler Daten finden Sie unter Wie entleere ich einen S3 Bucket? oder Wie lösche ich einen S3 Bucket?.

Dokumente müssen in UTF-8-formatierten Textdateien sein. Sie können Ihre Dokumente auf zwei Arten einreichen. In der folgenden Tabelle sind die Optionen aufgeführt.

Format	Beschreibung
Ein Dokument pro Datei	Jede Datei enthält ein Eingabedokument. Dies eignet sich am besten für Sammlungen großer Dokumente.
Ein Dokument pro Zeile	Die Eingabe ist eine einzelne Datei. Jede Zeile in der Datei wird als Dokument betrachtet. Dies eignet sich am besten für kurze Dokumente, wie z. B. Beiträge in sozialen Netzwerken. Jede Zeile muss mit einem Zeilenvorschub (LF,\n), einem Zeilenwechsel (CR,\ r) oder beidem (CRLF,\ r\n) enden. Das Unicode-Zeilentrennzeichen (u+2028) kann nicht zum Beenden einer Zeile verwendet werden.

Format

Beschreibung

Ein Dokument pro Datei

Jede Datei enthält ein Eingabedokument. Dies eignet sich am besten für Sammlungen großer Dokumente.

Ein Dokument pro Zeile

Die Eingabe ist eine einzelne Datei. Jede Zeile in der Datei wird als Dokument betrachtet. Dies eignet sich am besten für kurze Dokumente, wie z. B. Beiträge in sozialen Netzwerken.

Jede Zeile muss mit einem Zeilenvorschub (LF,\n), einem Zeilenwechsel (CR,\ r) oder beidem (CRLF,\ r\n) enden. Das Unicode-Zeilentrennzeichen (u+2028) kann nicht zum Beenden einer Zeile verwendet werden.

Weitere Informationen finden Sie unter InputDataConfigDatentyp.

Nachdem Amazon Comprehend Ihre Dokumentensammlung verarbeitet hat, gibt es ein komprimiertes Archiv zurück, das zwei Dateien enthält, undtopic-terms.csv. doc-topics.csv Weitere Informationen zur Ausgabedatei finden Sie unter OutputDataConfig.

Die erste Ausgabedatei,topic-terms.csv, ist eine Liste von Themen in der Sammlung. Für jedes Thema enthält die Liste standardmäßig die wichtigsten Begriffe, sortiert nach Themen, entsprechend ihrer Gewichtung. Wenn Sie Amazon Comprehend beispielsweise eine Sammlung von Zeitungsartikeln geben, wird möglicherweise Folgendes zurückgegeben, um die ersten beiden Themen in der Sammlung zu beschreiben:

Thema	Begriff	Gewicht
000	Mannschaft	0,118533
000	game	0,106072
000	player	0,031625
000	Jahreszeit	0,023633
000	spielen	0,021118
000	Hof	0,024454
000	Trainer	0,016012
000	Spiele	0,016191
000	Fußball	0.015049
000	Quarterback	0,014239
001	Becher	0,205236
001	Essen	0.040686
001	Minuten	0,036062
001	hinzufügen	0,029697
001	Esslöffel	0,028789
001	ölen	0,021254
001	Pfeffer	0,022205
001	Teelöffel	0,020040
001	Wein	0,016588
001	Zucker	0,015101

Die Gewichte stellen eine Wahrscheinlichkeitsverteilung über die Wörter in einem bestimmten Thema dar. Da Amazon Comprehend nur die ersten 10 Wörter für jedes Thema zurückgibt, ergibt die Summe der Gewichtungen nicht 1,0. In den seltenen Fällen, in denen ein Thema weniger als 10 Wörter enthält, ergeben die Gewichtungen zusammen 1,0.

Die Wörter werden nach ihrer Unterscheidungskraft sortiert, indem ihr Vorkommen in allen Themengebieten berücksichtigt wird. In der Regel entspricht dies ihrem Gewicht, aber in einigen Fällen, wie z. B. bei den Wörtern „Spiel“ und „Hof“ in der Tabelle, führt dies zu einer Reihenfolge, die nicht mit der Gewichtung übereinstimmt.

Sie können die Anzahl der Themen angeben, die zurückgegeben werden sollen. Wenn Sie Amazon Comprehend beispielsweise bitten, 25 Themen zurückzugeben, werden die 25 wichtigsten Themen in der Sammlung zurückgegeben. Amazon Comprehend kann bis zu 100 Themen in einer Sammlung erkennen. Wählen Sie die Anzahl der Themen basierend auf Ihren Kenntnissen über die Domäne. Es kann einige Experimente erfordern, um die richtige Zahl zu ermitteln.

Die zweite Datei,doc-topics.csv, listet die Dokumente auf, die einem Thema zugeordnet sind, sowie den Anteil des Dokuments, der sich mit dem Thema befasst. Falls Sie angegeben haben, wird ONE_DOC_PER_FILE das Dokument anhand des Dateinamens identifiziert. Falls Sie angegeben haben, wird ONE_DOC_PER_LINE das Dokument anhand des Dateinamens und der mit 0 indizierten Zeilennummer in der Datei identifiziert. Amazon Comprehend kann beispielsweise Folgendes für eine Sammlung von Dokumenten zurückgeben, die mit einem Dokument pro Datei eingereicht wurden:

Dokument	Thema	Anteil
Beispieldokument 1	000	0,999330137
Beispieldokument 2	000	0,998532187
Beispieldokument 3	000	0,998384574
...
Beispiel für DOCN	000	3,57E-04

Amazon Comprehend verwendet Informationen aus dem Lemmatization Lists Dataset von MBM, der hier unter der Open Database License (L) v1.0 zur Verfügung gestellt wird. ODb

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Amazon Comprehend Benutzerdefiniert

Modi der Dokumentenverarbeitung