Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Sie können Amazon Comprehend verwenden, um den Inhalt einer Sammlung von Dokumenten zu untersuchen, um gemeinsame Themen zu ermitteln. Sie können Amazon Comprehend beispielsweise eine Sammlung von Nachrichtenartikeln zur Verfügung stellen, und es bestimmt die Themen wie Sport, Politik oder Unterhaltung. Der Text in den Dokumenten muss nicht mit Anmerkungen versehen werden.
Amazon Comprehend verwendet ein auf Latent-Dirichlet-Zuordnung
Ein Wort wird einem Thema in einem Dokument zugeordnet, je nachdem, wie häufig dieses Thema in einem Dokument vorkommt und wie viel Affinität das Thema zu dem Wort hat. Dasselbe Wort kann je nach Themenverteilung in einem bestimmten Dokument unterschiedlichen Themen in verschiedenen Dokumenten zugeordnet werden.
Beispielsweise kann das Wort „Glukose“ in einem Artikel, in dem es hauptsächlich um Sport geht, dem Thema „Sport“ zugeordnet werden, während dasselbe Wort in einem Artikel über „Medizin“ dem Thema „Medizin“ zugewiesen wird.
Jedem Wort, das einem Thema zugeordnet ist, wird eine Gewichtung zugewiesen, die angibt, wie sehr das Wort zur Definition des Themas beiträgt. Die Gewichtung gibt an, wie oft das Wort im gesamten Dokument im Thema im Vergleich zu anderen Wörtern des Themas vorkommt.
Für genaueste Ergebnisse sollten Sie Amazon Comprehend den größtmöglichen Korpus zur Verfügung stellen, mit dem Sie arbeiten können. Um die besten Ergebnisse zu erzielen:
-
Sie sollten für jeden Themenmodellierungsjob mindestens 1.000 Dokumente verwenden.
-
Jedes Dokument sollte mindestens 3 Sätze lang sein.
-
Wenn ein Dokument hauptsächlich aus numerischen Daten besteht, sollten Sie es aus dem Korpus entfernen.
Die Themenmodellierung ist ein asynchroner Prozess. Mithilfe dieses Vorgangs reichen Sie Ihre Dokumentenliste aus einem Amazon S3-Bucket an Amazon Comprehend ein. StartTopicsDetectionJob Die Antwort wird an einen Amazon S3 S3-Bucket gesendet. Sie können sowohl den Eingabe- als auch den Ausgabe-Bucket konfigurieren. Rufen Sie eine Liste der Themenmodellierungsaufträge ab, die Sie mithilfe der ListTopicsDetectionJobsOperation eingereicht haben, und zeigen Sie Informationen zu einem Job an, der die DescribeTopicsDetectionJobOperation verwendet. Inhalte, die an Amazon-S3-Buckets geliefert werden, können Kundeninhalte enthalten. Weitere Informationen zum Entfernen sensibler Daten finden Sie unter Wie entleere ich einen S3 Bucket? oder Wie lösche ich einen S3 Bucket?.
Dokumente müssen in Textdateien im UTF-8-Format vorliegen. Sie können Ihre Dokumente auf zwei Arten einreichen. Die folgende Tabelle zeigt die Optionen.
Format | Beschreibung |
---|---|
Ein Dokument pro Datei | Jede Datei enthält ein Eingabedokument. Dies eignet sich am besten für Sammlungen großer Dokumente. |
Ein Dokument pro Zeile | Die Eingabe ist eine einzelne Datei. Jede Zeile in der Datei wird als Dokument betrachtet. Dies eignet sich am besten für kurze Dokumente, z. B. Beiträge in sozialen Netzwerken. Jede Zeile muss mit einem Zeilenvorschub (LF,\n), einem Zeilenwechsel (CR,\ r) oder beidem (CRLF,\ r\n) enden. Das Unicode-Zeilentrennzeichen (u+2028) kann nicht zum Beenden einer Zeile verwendet werden. |
Weitere Informationen finden Sie unter InputDataConfigDatentyp.
Nachdem Amazon Comprehend Ihre Dokumentensammlung verarbeitet hat, gibt es ein komprimiertes Archiv zurück, das zwei Dateien enthält, undtopic-terms.csv
. doc-topics.csv
Weitere Informationen zur Ausgabedatei finden Sie unter. OutputDataConfig
Die erste Ausgabedatei,topic-terms.csv
, ist eine Liste von Themen in der Sammlung. Für jedes Thema enthält die Liste standardmäßig die wichtigsten Begriffe, sortiert nach Themen, entsprechend ihrer Gewichtung. Wenn Sie Amazon Comprehend beispielsweise eine Sammlung von Zeitungsartikeln geben, wird möglicherweise Folgendes zurückgegeben, um die ersten beiden Themen in der Sammlung zu beschreiben:
Thema | Begriff | Gewicht |
---|---|---|
000 | Mannschaft | 0,118533 |
000 | game | 0,106072 |
000 | player | 0,031625 |
000 | Jahreszeit | 0,023633 |
000 | spielen | 0,021118 |
000 | Hof | 0,024454 |
000 | Trainer | 0,016012 |
000 | Spiele | 0,016191 |
000 | Fußball | 0.015049 |
000 | Quarterback | 0,014239 |
001 | Becher | 0,205236 |
001 | Essen | 0.040686 |
001 | Minuten | 0,036062 |
001 | hinzufügen | 0,029697 |
001 | Esslöffel | 0,028789 |
001 | ölen | 0,021254 |
001 | Pfeffer | 0,022205 |
001 | Teelöffel | 0,020040 |
001 | Wein | 0,016588 |
001 | Zucker | 0,015101 |
Die Gewichte stellen eine Wahrscheinlichkeitsverteilung über die Wörter in einem bestimmten Thema dar. Da Amazon Comprehend nur die ersten 10 Wörter für jedes Thema zurückgibt, ergibt die Summe der Gewichtungen nicht 1,0. In den seltenen Fällen, in denen ein Thema weniger als 10 Wörter enthält, ergibt die Summe der Gewichtungen 1,0.
Die Wörter werden nach ihrer Unterscheidungskraft sortiert, indem ihr Vorkommen in allen Themengebieten berücksichtigt wird. In der Regel entspricht dies ihrem Gewicht, aber in einigen Fällen, wie z. B. bei den Wörtern „Spiel“ und „Hof“ in der Tabelle, führt dies zu einer Reihenfolge, die nicht mit der Gewichtung übereinstimmt.
Sie können die Anzahl der Themen angeben, die zurückgegeben werden sollen. Wenn Sie Amazon Comprehend beispielsweise bitten, 25 Themen zurückzugeben, werden die 25 wichtigsten Themen in der Sammlung zurückgegeben. Amazon Comprehend kann bis zu 100 Themen in einer Sammlung erkennen. Wählen Sie die Anzahl der Themen basierend auf Ihren Kenntnissen über die Domäne. Es kann einige Experimente erfordern, um die richtige Zahl zu ermitteln.
Die zweite Datei,doc-topics.csv
, listet die Dokumente auf, die einem Thema zugeordnet sind, sowie den Anteil des Dokuments, der sich mit dem Thema befasst. Falls Sie angegeben haben, wird ONE_DOC_PER_FILE
das Dokument anhand des Dateinamens identifiziert. Falls Sie angegeben haben, wird ONE_DOC_PER_LINE
das Dokument anhand des Dateinamens und der mit 0 indizierten Zeilennummer in der Datei identifiziert. Amazon Comprehend kann beispielsweise Folgendes für eine Sammlung von Dokumenten zurückgeben, die mit einem Dokument pro Datei eingereicht wurden:
Dokument | Thema | Anteil |
---|---|---|
Beispieldokument 1 | 000 | 0,999330137 |
Beispieldokument 2 | 000 | 0,998532187 |
Beispieldokument 3 | 000 | 0,998384574 |
... | ||
Beispiel-DOCN | 000 | 3,57E-04 |
Amazon Comprehend verwendet Informationen aus dem Lemmatization Lists Dataset von MBM, der hier unter der Open