Funktionsverarbeitung - Amazon Machine Learning

Wir aktualisieren den Amazon Machine Learning Learning-Service nicht mehr und akzeptieren keine neuen Benutzer mehr dafür. Diese Dokumentation ist für bestehende Benutzer verfügbar, wir aktualisieren sie jedoch nicht mehr. Weitere Informationen finden Sie unterWas Amazon Machine Learning.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Funktionsverarbeitung

Nachdem Sie sich mithilfe von Datenzusammenfassungen und Visualisierungen mit Ihren vertraut gemacht haben, möchten Sie Ihre Variablen möglicherweise weiter transformieren, damit sie aussagekräftiger sind. Dieser Vorgang wird Funktionsverarbeitung genannt. Beispiel: Sie haben eine Variable, die Datum und Uhrzeit eines Ereignisses erfasst. Dieses Datum und diese Uhrzeit treten nie wieder auf und sind daher nicht für eine Voraussage Ihres Ziels geeignet. Wenn Sie diese Variable jedoch in Funktionen transformieren, welche die Stunden eines Tags, den Wochentag und den Monat angeben, können diese Variablen nützlich sein, um zu erfahren, ob das Ereignis zu einer bestimmten Stunde, an einem bestimmten Wochentag oder in einem bestimmten Monat auftritt. Eine solche Funktionsverarbeitung für generalisierbare Datenpunkte können das Voraussagemodell deutlich verbessern.

Weitere Beispiele für eine gängige Funktionsverarbeitung:

  • Ersetzen fehlender oder ungültiger Daten durch aussagekräftige Werte (wenn Sie z. B. wissen, dass ein fehlender Wert für eine Produktart-Variable bedeutet, dass es sich um ein Buch handelt, können Sie alle fehlenden Werte in der Produktart durch den Wert für Buch ersetzen). Eine gängige Strategie für das Ersetzen fehlender Werte ist das Austauschen der fehlenden Werte mit einem Mittel- oder Durchschnittswert. Es ist wichtig, dass Sie Ihre Daten verstehen, bevor Sie sich für eine Strategie für das Austauschen fehlender Werte entscheiden.

  • Bilden kartesischer Produkte aus einer Variable mit einer anderen. Wenn Sie beispielsweise über zwei Variablen verfügen, nämlich Bevölkerungsdichte (Stadt, Vorort, Land) und Staat (Washington, Oregon, Kalifornien), können sich in den Funktionen, die aus einem kartesischen Produkt aus diesen beiden Variablen zu neuen Funktionen geformt werden (urban_Washington, suburban_Washington, rural_Washington, urban_Oregon, suburban_Oregon, rural_Oregon, urban_California, suburban_California, rural_California), nützliche Informationen verbergen.

  • Nicht-lineare Transformationen wie das Binning von numerischen Variablen zu Kategorien. In vielen Fällen ist die Beziehung zwischen einer numerischen Funktion und dem Ziel nicht linear (der numerische Funktionswert wird nicht gleichmäßig mit dem Ziel erhöht oder verringert). In solchen Fällen kann es nützlich sein, die numerische Funktion in kategorische Funktionen zu packen, um verschiedene Bereiche der numerischen Funktion darzustellen. Jede kategorische Funktion (Bin) kann dann mit einer eigenen linearen Beziehung zum Ziel im Modell dargestellt werden. Nehmen wir an, Sie wissen, dass die kontinuierliche numerische Funktion "age" nicht linear mit der Wahrscheinlichkeit verläuft, ein Buch zu kaufen. Sie können die Dauer also in kategorische Funktionen packen, die in der Lage sind, die Beziehung zum Ziel genauer zu erfassen. Die optimale Anzahl von Paketen für eine numerische Variable hängt von den Eigenschaften der Variablen und ihrer Beziehung mit dem Ziel ab und wird am besten durch Experimente bestimmt. Amazon ML schlägt die optimale Paketanzahl für eine numerische Funktion basierend auf den Datenstatistiken im vorgeschlagenen Rezept vor. Weitere Informationen zum empfohlenen Rezept finden Sie im Developer-Handbuch.

  • Domain-spezifische Funktionen (z. B. können Sie mit Länge, Breite und Höhe als separate Variablen eine neue Volume-Funktion als Produkt dieser drei Variablen erstellen).

  • Variable-spezifische Funktionen. Einige Variable-Typen, z. B. SMS-Funktionen oder Funktionen, welche die Struktur einer Webseite oder die Struktur eines Satzes erfassen, haben generische Verarbeitungsmöglichkeiten, welche die Extraktion von Struktur und Kontext unterstützen. Beispielsweise kann das Bilden von n-grams aus dem Text "the fox jumped over the fence" mit unigrams dargestellt werden: the, fox, jumped, over, fence, oder bigrams: the fox, fox jumped, jumped over, over the, the fence.

Das Einbeziehen relevanter Funktionen verbessert die Voraussagekraft. Natürlich ist es nicht immer möglich, die Funktionen mit "signal"- oder Voraussagekraft im Voraus zu kennen. Deshalb ist es gut, dass alle Funktionen, die möglicherweise einen Bezug zur Zielbezeichnung haben, einzubeziehen und den Modellschulungsalgorithmus die stärksten Korrelationen wählen zu lassen. In Amazon ML kann die Funktionsverarbeitung beim Erstellen eines Modells im Rezept festgelegt werden. Eine Liste der verfügbaren Funktionsprozessoren finden Sie im Developer-Handbuch.