Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Themenmodellierung

Fokusmodus
Themenmodellierung - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Sie können Amazon Comprehend verwenden, um den Inhalt einer Sammlung von Dokumenten zu untersuchen, um gemeinsame Themen zu ermitteln. Sie können Amazon Comprehend beispielsweise eine Sammlung von Nachrichtenartikeln zur Verfügung stellen, und es bestimmt die Themen wie Sport, Politik oder Unterhaltung. Der Text in den Dokumenten muss nicht mit Anmerkungen versehen werden.

Amazon Comprehend verwendet ein auf Latent-Dirichlet-Zuordnung basierendes Lernmodell, um die Themen in einer Reihe von Dokumenten zu bestimmen. Es untersucht jedes Dokument, um den Kontext und die Bedeutung eines Wortes zu bestimmen. Die Wörter, die im gesamten Dokumentensatz häufig zum gleichen Kontext gehören, bilden ein Thema.

Ein Wort wird einem Thema in einem Dokument zugeordnet, je nachdem, wie häufig dieses Thema in einem Dokument vorkommt und wie viel Affinität das Thema zu dem Wort hat. Dasselbe Wort kann je nach Themenverteilung in einem bestimmten Dokument unterschiedlichen Themen in verschiedenen Dokumenten zugeordnet werden.

Beispielsweise kann das Wort „Glukose“ in einem Artikel, in dem es hauptsächlich um Sport geht, dem Thema „Sport“ zugeordnet werden, während dasselbe Wort in einem Artikel über „Medizin“ dem Thema „Medizin“ zugewiesen wird.

Jedem Wort, das einem Thema zugeordnet ist, wird eine Gewichtung zugewiesen, die angibt, wie sehr das Wort zur Definition des Themas beiträgt. Die Gewichtung gibt an, wie oft das Wort im gesamten Dokument im Thema im Vergleich zu anderen Wörtern des Themas vorkommt.

Für genaueste Ergebnisse sollten Sie Amazon Comprehend den größtmöglichen Korpus zur Verfügung stellen, mit dem Sie arbeiten können. Um die besten Ergebnisse zu erzielen:

  • Sie sollten für jeden Themenmodellierungsjob mindestens 1.000 Dokumente verwenden.

  • Jedes Dokument sollte mindestens 3 Sätze lang sein.

  • Wenn ein Dokument hauptsächlich aus numerischen Daten besteht, sollten Sie es aus dem Korpus entfernen.

Die Themenmodellierung ist ein asynchroner Prozess. Mithilfe dieses Vorgangs reichen Sie Ihre Dokumentenliste aus einem Amazon S3-Bucket an Amazon Comprehend ein. StartTopicsDetectionJob Die Antwort wird an einen Amazon S3 S3-Bucket gesendet. Sie können sowohl den Eingabe- als auch den Ausgabe-Bucket konfigurieren. Rufen Sie eine Liste der Themenmodellierungsaufträge ab, die Sie mithilfe der ListTopicsDetectionJobsOperation eingereicht haben, und zeigen Sie Informationen zu einem Job an, der die DescribeTopicsDetectionJobOperation verwendet. Inhalte, die an Amazon-S3-Buckets geliefert werden, können Kundeninhalte enthalten. Weitere Informationen zum Entfernen sensibler Daten finden Sie unter Wie entleere ich einen S3 Bucket? oder Wie lösche ich einen S3 Bucket?.

Dokumente müssen in Textdateien im UTF-8-Format vorliegen. Sie können Ihre Dokumente auf zwei Arten einreichen. Die folgende Tabelle zeigt die Optionen.

Format Beschreibung
Ein Dokument pro Datei Jede Datei enthält ein Eingabedokument. Dies eignet sich am besten für Sammlungen großer Dokumente.
Ein Dokument pro Zeile

Die Eingabe ist eine einzelne Datei. Jede Zeile in der Datei wird als Dokument betrachtet. Dies eignet sich am besten für kurze Dokumente, z. B. Beiträge in sozialen Netzwerken.

Jede Zeile muss mit einem Zeilenvorschub (LF,\n), einem Zeilenwechsel (CR,\ r) oder beidem (CRLF,\ r\n) enden. Das Unicode-Zeilentrennzeichen (u+2028) kann nicht zum Beenden einer Zeile verwendet werden.

Weitere Informationen finden Sie unter InputDataConfigDatentyp.

Nachdem Amazon Comprehend Ihre Dokumentensammlung verarbeitet hat, gibt es ein komprimiertes Archiv zurück, das zwei Dateien enthält, undtopic-terms.csv. doc-topics.csv Weitere Informationen zur Ausgabedatei finden Sie unter. OutputDataConfig

Die erste Ausgabedatei,topic-terms.csv, ist eine Liste von Themen in der Sammlung. Für jedes Thema enthält die Liste standardmäßig die wichtigsten Begriffe, sortiert nach Themen, entsprechend ihrer Gewichtung. Wenn Sie Amazon Comprehend beispielsweise eine Sammlung von Zeitungsartikeln geben, wird möglicherweise Folgendes zurückgegeben, um die ersten beiden Themen in der Sammlung zu beschreiben:

Thema Begriff Gewicht
000 Mannschaft 0,118533
000 game 0,106072
000 player 0,031625
000 Jahreszeit 0,023633
000 spielen 0,021118
000 Hof 0,024454
000 Trainer 0,016012
000 Spiele 0,016191
000 Fußball 0.015049
000 Quarterback 0,014239
001 Becher 0,205236
001 Essen 0.040686
001 Minuten 0,036062
001 hinzufügen 0,029697
001 Esslöffel 0,028789
001 ölen 0,021254
001 Pfeffer 0,022205
001 Teelöffel 0,020040
001 Wein 0,016588
001 Zucker 0,015101

Die Gewichte stellen eine Wahrscheinlichkeitsverteilung über die Wörter in einem bestimmten Thema dar. Da Amazon Comprehend nur die ersten 10 Wörter für jedes Thema zurückgibt, ergibt die Summe der Gewichtungen nicht 1,0. In den seltenen Fällen, in denen ein Thema weniger als 10 Wörter enthält, ergibt die Summe der Gewichtungen 1,0.

Die Wörter werden nach ihrer Unterscheidungskraft sortiert, indem ihr Vorkommen in allen Themengebieten berücksichtigt wird. In der Regel entspricht dies ihrem Gewicht, aber in einigen Fällen, wie z. B. bei den Wörtern „Spiel“ und „Hof“ in der Tabelle, führt dies zu einer Reihenfolge, die nicht mit der Gewichtung übereinstimmt.

Sie können die Anzahl der Themen angeben, die zurückgegeben werden sollen. Wenn Sie Amazon Comprehend beispielsweise bitten, 25 Themen zurückzugeben, werden die 25 wichtigsten Themen in der Sammlung zurückgegeben. Amazon Comprehend kann bis zu 100 Themen in einer Sammlung erkennen. Wählen Sie die Anzahl der Themen basierend auf Ihren Kenntnissen über die Domäne. Es kann einige Experimente erfordern, um die richtige Zahl zu ermitteln.

Die zweite Datei,doc-topics.csv, listet die Dokumente auf, die einem Thema zugeordnet sind, sowie den Anteil des Dokuments, der sich mit dem Thema befasst. Falls Sie angegeben haben, wird ONE_DOC_PER_FILE das Dokument anhand des Dateinamens identifiziert. Falls Sie angegeben haben, wird ONE_DOC_PER_LINE das Dokument anhand des Dateinamens und der mit 0 indizierten Zeilennummer in der Datei identifiziert. Amazon Comprehend kann beispielsweise Folgendes für eine Sammlung von Dokumenten zurückgeben, die mit einem Dokument pro Datei eingereicht wurden:

Dokument Thema Anteil
Beispieldokument 1 000 0,999330137
Beispieldokument 2 000 0,998532187
Beispieldokument 3 000 0,998384574
...    
Beispiel-DOCN 000 3,57E-04

Amazon Comprehend verwendet Informationen aus dem Lemmatization Lists Dataset von MBM, der hier unter der Open Database License (L) v1.0 zur Verfügung gestellt wird. ODb

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.