Neuordnung von Daten - Amazon Machine Learning

Wir aktualisieren den Amazon Machine Learning Learning-Service nicht mehr und akzeptieren keine neuen Benutzer mehr dafür. Diese Dokumentation ist für bestehende Benutzer verfügbar, wir aktualisieren sie jedoch nicht mehr. Weitere Informationen finden Sie unterWas Amazon Machine Learning.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Neuordnung von Daten

Mit der Funktionalität Neuordnung von Daten können Sie eine Datenquelle erstellen, die lediglich auf einem Teil der Eingabedaten basiert, auf die sie verweist. Wenn Sie beispielsweise ein ML-Modell mit demErstellen eines ML-ModellsAssistenten auf der Amazon ML-Konsole und wählen Sie die Standard-Bewertungsoption. Amazon ML behält automatisch 30% Ihrer Daten für die ML-Modellauswertung und verwendet die übrigen 70% für die Schulung. Diese Funktionalität wird durch die -Funktion Neuordnung von Daten aktiviert.

Wenn Sie die Amazon ML-API verwenden, um Datenquellen zu erstellen, können Sie angeben, auf welchem Teil der Eingabedaten die neue Datenquelle basieren soll. Dazu übergeben Sie im Parameter DataRearrangement Anweisungen an die APIs CreateDataSourceFromS3CreateDataSourceFromRedshift oder CreateDataSourceFromRDS. Der Inhalt der DataRearrangement-Zeichenfolge ist eine JSON-Zeichenfolge, welche die Anfangs- und End-Standorte Ihrer Daten in Prozentsätzen, eine Ergänzungsmarkierung und eine Aufteilungsstrategie enthält. Die folgende DataRearrangement-Zeichenfolge gibt beispielsweise an, dass die ersten 70 % der Daten verwendet werden, um die Datenquelle zu erstellen:

{ "splitting": { "percentBegin": 0, "percentEnd": 70, "complement": false, "strategy": "sequential" } }

DataRearrangement-Parameter

Wenn Sie die Vorgehensweise bei der Erstellung von Datenquellen bei Amazon ML ändern möchten, verwenden Sie die folgenden Parameter.

PercentBegin (Optional)

Verwenden Sie percentBegin , um anzugeben, wo die Daten für die Datenquelle beginnen. Wenn Sie nicht einschließenpercentBeginundpercentEndenthält Amazon ML bei der Erstellung der Datenquelle alle Daten.

Gültige Werte sind 0 bis einschließlich 100.

PercentEnd (Optional)

Verwenden Sie percentEnd , um anzugeben, wo die Daten für die Datenquelle enden. Wenn Sie nicht einschließenpercentBeginundpercentEndenthält Amazon ML bei der Erstellung der Datenquelle alle Daten.

Gültige Werte sind 0 bis einschließlich 100.

Complement (Optional)

DiecomplementDer Parameter weist Amazon ML an, Daten zu verwenden, die nicht im Bereich vonpercentBeginzupercentEndum eine Datenquelle zu erstellen. Der Parameter complement ist nützlich, wenn Sie ergänzende Datenquellen zu Schulungs- und Auswertungszwecken erstellen müssen. Um eine ergänzende Datenquelle zu erstellen, verwenden Sie die gleichen Werte für percentBegin und percentEnd mit dem Parameter complement.

Die beiden folgenden Datenquellen teilen beispielsweise keine Daten und können verwendet werden, um ein Modell zu schulen und auszuwerten. Die erste Datenquelle besteht aus 25 % und die zweite aus 75 % der Daten.

Auswertungsdatenquelle:

{ "splitting":{ "percentBegin":0, "percentEnd":25 } }

Schulungsdatenquelle:

{ "splitting":{ "percentBegin":0, "percentEnd":25, "complement":"true" } }

Gültige Werte sind true und false.

Strategy (Optional)

Wenn Sie die Vorgehensweise bei Amazon ML die Daten für eine Datenquelle ändern möchten, verwenden Sie diestrategy-Parameter.

Der Standardwert für diestrategy-Parameter istsequential, was bedeutet, dass Amazon ML alle Datensätze zwischen dempercentBeginundpercentEndParameter für die Datenquelle in der Reihenfolge, in der sie in den Eingabedaten erscheinen.

Die folgenden beiden DataRearrangement-Zeilen sind Beispiele für sequentiell geordnete Schulungs- und Auswertungsdatenquellen:

Auswertungsdatenquelle: {"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential"}}

Schulungsdatenquelle: {"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential", "complement":"true"}}

Wenn Sie eine Datenquelle aus einer Zufallsauswahl von Daten erstellen möchten, setzen Sie den Parameter strategy auf random und geben Sie eine Zeichenfolge an, die als Ausgangswert für die zufällige Datenaufteilung verwendet wird (z. B. den S3-Pfad zu Ihren Daten als zufällige Seed-Zeichenfolge). Wenn Sie die zufällige Verteilungsstrategie wählen, weist Amazon ML jeder Datenzeile eine Pseudo-Zufallszahl zu und wählt dann die Zeilen mit einer zugeordneten Zahl zwischenpercentBeginundpercentEndaus. Pseudo-Zufallszahlen werden mit dem Byte-Offset als Seed zugewiesen, sodass die Datenergebnisse anders aufgeteilt werden. Alle vorhandenen Reihenfolgen bleiben erhalten. Die zufällige Aufteilungsstrategie stellt sicher, dass die Variablen der Schulungs- und Auswertungsdaten gleichmäßig verteilt werden. Dies ist nützlich, wenn die Eingabedaten möglicherweise eine implizite Sortierreihenfolge besitzen, was ansonsten dazu führen würde, dass Schulungs- und Auswertungsdatenquellen nicht-ähnliche Datensätze enthalten würden.

Die folgenden beiden DataRearrangement-Zeilen sind Beispiele für nicht-sequentiell geordnete Schulungs- und Auswertungsdatenquellen:

Auswertungsdatenquelle:

{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } } }

Schulungsdatenquelle:

{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } "complement":"true" } }

Gültige Werte sind sequential und random.

(Optional) Strategy:RandomSeed

Amazon ML verwendet dieRandomSeedum die Daten zu trennen. Der Standard-Seed für die API ist eine leere Zeichenfolge. Um einen Seed für die zufällige Aufteilungsstrategie anzugeben, übergeben Sie eine Zeichenfolge. Weitere Information zufällige Seeds finden Sie unterZufällige Aufteilung Ihrer DatenimAmazon Machine Learning Learning-Entwicklerleitaus.

Einen Beispielcode für die Verwendung der Cross-Validierung mit Amazon ML finden Sie unterGithub Machine Learning Learning-Beispieleaus.