Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Funktionsweise von LDA
Amazon SageMaker LDA ist ein Algorithmus für unbeaufsichtigtes Lernen, der versucht, eine Reihe von Beobachtungen als eine Mischung verschiedener Kategorien zu beschreiben. Diese Kategorien sind selbst eine Wahrscheinlichkeitsverteilung der Funktionen. LDA ist ein generatives Wahrscheinlichkeitsmodell – das heißt, LDA versucht, ein Modell für die Verteilung von Aus- und Eingaben auf Basis latenter Variablen zu erzeugen. Im Gegensatz dazu stehen diskriminative Modelle, die versuchen, die Zuordnung von Eingaben zu Ausgaben zu lernen.
Sie können LDA für zahlreiche Aufgaben nutzen – vom Kunden-Clustering auf Basis von Produktkäufen bis zur automatischen Harmonieanalyse von Musikstücken. Größtenteils wird LDA jedoch in Verbindung mit der Themenmodellierung in Textkorpora eingesetzt. Beobachtungen werden als Dokumente bezeichnet. Der Funktionssatz ist das Vokabular. Eine Funktion gibt ein Wort an. Und die resultierenden Kategorien stellen die Themen dar.
Anmerkung
Eine Lemmatisierung führt zu einer erheblich höheren Algorithmusleistung und -genauigkeit. Eine Vorverarbeitung der Eingabetextdaten sollte in Betracht gezogen werden. Weitere Informationen finden Sie unter Stemming und Lemmatisierung
Ein LDA-Modell wird über zwei Parameter definiert:
-
α – Eine Vorabschätzung der Themenwahrscheinlichkeit (d. h. wie häufig ein einzelnes Thema durchschnittlich in einem bestimmten Dokument auftritt).
-
β – Eine Sammlung von k-Themen, in der jedem Thema eine Wahrscheinlichkeitsverteilung für das im Dokumentkorpus verwendete Vokabular zugeordnet wird (auch als "Thema-Wort-Verteilung" bezeichnet).
LDA ist ein "bag-of-words" Modell, was bedeutet, dass die Reihenfolge der Wörter keine Rolle spielt. Bei LDA handelt es sich um ein generatives Modell, bei dem jedes Dokument word-by-word durch die Wahl einer Themenmischung generiert wird.
Für jedes Wort im Dokument:
-
Wählen Sie ein Thema z ~ Multinomial(θ).
-
Wählen Sie die entsprechende Thema-Wort-Verteilung β_z.
-
Ziehen Sie ein Wort w ~ Multinomial(β_z).
Bei der Modelltraining besteht das Ziel in der Ermittlung der Parameter α und β; dies maximiert die Wahrscheinlichkeit, dass der Textkorpus vom Modell generiert wird.
Gibbs-Sampling oder Expectation Maximization (EM) sind die gängigsten Methoden zur Einschätzung des LDA-Modells. Der Amazon SageMaker LDA verwendet Tensor-Spektralzerlegung. Diese bietet mehrere Vorteile:
-
Theoretische Garantie für Ergebnisse. Bei der EM-Standardmethode wird nur die Konvertierung in lokale Optima garantiert, häufig mit schlechter Qualität.
-
Hochgradig parallelisierbar. Die Arbeit kann sowohl für Training als auch Inferenz trivial über die Eingabedokumente verteilt werden. Auch die EM-Methode und das Gibbs-Sampling lassen sich parallelisieren, jedoch nicht so einfach.
-
Schnell. Die EM-Methode weist zwar niedrige Iterationskosten auf, hat jedoch langsame Konvergenzraten. Auch das Gibbs-Sampling hat langsame Konvergenzraten und erfordert zudem eine hohe Anzahl an Stichproben.
Allgemein dargestellt folgt der Tensor-Zerlegungsalgorithmus folgendem Prozess:
-
Das Ziel ist die Berechnung der Spektralzerlegung eines Tensors V x V x V, der die Momente der Dokumente in unserem Textkorpus zusammenfasst. V ist die Vokabulargröße (also die Anzahl unterschiedlicher Wörter in allen Dokumenten). Die spektralen Komponenten dieses Tensors sind die LDA-Parameter α und β, welche die allgemeine Wahrscheinlichkeit des Dokumentkorpus maximieren. Da häufig ein sehr umfangreiches und damit großes Vokabular verwendet wird, ist der Tensor V x V x V meist zu groß zum Speichern.
-
Stattdessen wird eine Momentenmatrix V x V eingesetzt, die das zweidimensionale Gegenstück zum Tensor aus Schritt 1 darstellt, um eine Filtermatrix der Dimension V x k zu bestimmen. Mit dieser Matrix lässt sich die Momentenmatrix V x V in eine Identitätsmatrix k x k konvertieren. k ist die Anzahl der Themen im Modell.
-
Dieselbe Filtermatrix kann zur Ermittlung eines kleineren Tensors k x k x k herangezogen werden. Bei der spektralen Zerlegung hat dieser Tensor Komponenten, die eine einfache Beziehung zu den Komponenten des Tensors V x V x V aufweisen.
-
Alternating Least Squares (alternierende kleinste Quadrate) wird zur Zerlegung des kleineren Tensors k x k x k verwendet. Damit wird einerseits erheblich weniger Speicher verbraucht und andererseits eine höhere Geschwindigkeit erzielt. Die Parameter α und β lassen sich durch eine "Filteraufhebung" der Ergebnisse in der Spektralzerlegung ermitteln.
Nach der Ermittlung der LDA-Modellparameter können Sie die Themenmischungen für die einzelnen Dokumente bestimmen. Mithilfe des stochastischen Gradientenverfahrens können Sie die Wahrscheinlichkeitsfunktion maximieren, dass eine bestimmte Themenmischung, die diesen Daten entspricht, beobachtet wird.
Die Themenqualität lässt sich verbessern, indem Sie die Themenanzahl in dem Training erhöhen und dann Ergebnisse mit schlechter Qualität herausfiltern. Dies erfolgt in SageMaker LDA tatsächlich automatisch: 25% mehr Themen werden berechnet und nur die Themen mit den größten zugehörigen Dirichlet-Prioren werden zurückgegeben. Zur weiteren Themenfilterung und -analyse können Sie die Themenzahl erhöhen und das resultierende LDA-Modell wie folgt ändern:
> import mxnet as mx > alpha, beta = mx.ndarray.load(‘model.tar.gz’) > # modify alpha and beta > mx.nd.save(‘new_model.tar.gz’, [new_alpha, new_beta]) > # upload to S3 and create new SageMaker model using the console
Weitere Informationen zu Algorithmen für LDA und deren Implementierung finden Sie im SageMaker Folgenden:
-
Animashree Anandkumar, Rong Ge, Daniel Hsu, Sham M Kakade und Matus Telgarsky. Tensor Decompositions for Learning Latent Variable Models, Journal of Machine Learning Research, 15:2773 bis 2832, 2014.
-
David M Blei, Andrew Y Ng und Michael I Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research, 3(Jan):993 bis 1022, 2003.
-
Thomas L Griffiths und Mark Steyvers. Finding Scientific Topics. Proceedings of the National Academy of Sciences, 101(suppl 1):5228 bis 5235, 2004.
-
Tamara G Kolda und Brett W Bader. Tensor Decompositions and Applications. SIAM Review, 51(3):455 bis 500, 2009.