Importieren von Datasets - Amazon Forecast

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Importieren von Datasets

Datasets enthalten die Daten, die zum Trainieren eines Predictors verwendet werden. Sie erstellen einen oder mehrere Amazon Forecast-Datasets und importieren Ihre Schulungsdaten darin. EINDataset-Gruppeist eine Sammlung ergänzender Datasets, die eine Reihe sich ändernder Parameter über eine Zeitserie hinweg detailliert beschreibt. Nachdem Sie eine Dataset-Gruppe erstellt haben, verwenden Sie sie zum Schulen eines Predictors.

Jede Dataset-Gruppe kann bis zu drei Datasets enthalten, eines von jedemDatensatztyp:Ziel-Zeitreihen, verwandte Zeitreihen und Artikel-Metadaten.

Zum Erstellen und Verwalten von Forecast-Datasets und -Dataset-Gruppen können Sie die Forecast-Konsole verwenden,AWS Command Line Interface(AWS CLI) oder AWS SDK.

Zum Beispiel Forecast-Datasets finden Sie imAmazon-Prognose-Beispiel-GitHub-Repositoryaus.

Datasets

Sie können zum Erstellen und Verwalten von Forecast-Datasets die Forecast-APIs verwenden, einschließlich derCreateDatasetundDescribeDatasetoperationen. Eine vollständige Liste der Forecast-APIs finden Sie unterAPI-Referenzaus.

Beim Erstellen eines Datasets geben Sie u. a. folgende Informationen an:

  • Die Häufigkeit/das Intervall, mit der bzw. dem Sie Ihre Daten aufgezeichnet haben. Sie können beispielsweise Einzelhandelsartikelverkäufe jede Woche aggregieren und aufzeichnen. In der Erste Schritte-Übung verwenden Sie den durchschnittlich verbrauchten Strom pro Stunde.

  • DieVorhersageformat (dasDomäne) und Dataset-Typ (innerhalb der Domäne)aus. Eine Dataset-Domäne gibt an, welche Art von Forecast Sie durchführen möchten, während ein Dataset-Typ Ihnen hilft, Ihre Schulungsdaten in prognosefreundliche Kategorien zu organisieren.

  • Das Dataset-Schema Ein Schema ordnet die Spaltenüberschriften Ihres Datasets zu. Wenn Sie beispielsweise die Nachfrage überwachen, haben Sie möglicherweise stündliche Daten über den Verkauf eines Artikels in mehreren Geschäften gesammelt. In diesem Fall würde Ihr Schema die Reihenfolge von links nach rechts definieren, in der Zeitstempel, Standort und Stundensatz in Ihrer Schulungsdatendatei angezeigt werden. Schemata definieren auch den Datentyp der einzelnen Spalten, z. B. string oder integer.

  • Geolocation-und Zeitzoneninformation Das Geolocation-Attribut ist innerhalb des Schemas mit dem Attributtyp definiertgeolocationaus. Die Zeitzoneninformationen werden mitCreateDatasetImportJobverwenden. Sowohl Geolokalisierung als auch Zeitzonendaten müssen einbezogen werden, um dieWetterindex.

Jede Spalte in Ihrem Forecast-Dataset stellt entweder eine Forecast darAbmessungoderMerkmalaus. Prognosedimensionen beschreiben die Aspekte Ihrer Daten, die sich im Laufe der Zeit nicht ändern, z. B. store oder location Prognosefunktionen enthalten alle Parameter in Ihren Daten, die im Laufe der Zeit variieren, z. B. price oder promotion. Einige Dimensionen, z. B. timestamp oder itemId, sind in Ziel-Zeitreihen-Datasets und Datasets verwandter Zeitreihen erforderlich.

Dataset-Domänen und Dataset-Typen

Wenn Sie ein Forecast-Dataset erstellen, wählen Sie eine Domäne und einen Dataset-Typ aus. Forecast stellt Domänen für eine Reihe von Anwendungsfällen bereit, z. B. Prognosen der Nachfrage im Einzelhandel oder des Web-Datenverkehrs. Sie können auch eine benutzerdefinierte Domäne erstellen. Eine vollständige Liste der Forecast-Domänen finden Sie unterVordefinierte Dataset-Domänen und Dataset-Typenaus.

Innerhalb jeder Domäne können Forecast-Benutzer die folgenden Arten von Datasets angeben:

  • Zielzeitreihendatensatz(Erforderlich) —Verwenden Sie diesen Datensatztyp, wenn Ihre Trainingsdaten eine Zeitreihe sindundEs enthält das Feld, für das Sie eine Prognose generieren möchten. Dieses Feld wird als Zielfeld bezeichnet.

  • Dataset verwandter Zeitreihen (optional) — Wählen Sie diesen Dataset-Typ aus, wenn Ihre Schulungsdaten eine Zeitreihe sind,aber estut nichtschließen Sie das Zielfeld einaus. Wenn Sie beispielsweise eine Artikelnachfrage prognostizieren, kann ein Dataset verwandter Zeitreihen zwar über price aber nicht über demand als Feld verfügen.

  • Artikelmetadaten-Dataset (optional) — Wählen Sie diesen Datensatztyp aus, wenn Ihre Trainingsdatenist nichtZeitreihendaten, beinhaltet aberMetadateninformationen über die Elemente in der Zielzeitreihe oder verwandten Zeitreihen-Datasetsaus. Wenn Sie beispielsweise eine Artikelnachfrage prognostizieren, kann ein Artikel-Metadaten-Dataset durchführencoloroderbrandals Dimensionen. Forecast berücksichtigt nur die Daten, die von einem Artikel-Metadaten-Dataset-Typ bereitgestellt werden, wenn Sie dasCNN-QRoderDeepAR+Algorithmus.

Abhängig von den Informationen in Ihren Schulungsdaten und dem, was Sie prognostizieren möchten, können Sie mehr als ein Dataset erstellen.

Angenommen, Sie möchten eine Prognose für die Nachfrage nach Einzelhandelsartikeln wie Schuhe, Socken usw. erstellen. Es bietet sich an, die folgenden Datasets in der RETAIL-Domäne zu erstellen:

  • Ziel-Zeitreihen-Dataset — Enthält die historischen Zeitreihen-Nachfragedaten für die Einzelhandelsartikel (item_id,timestampund das Zielfelddemand) enthalten. Da es das Zielfeld angibt, für das Sie eine Prognose erstellen möchten, müssen Sie mindestens ein Ziel-Zeitreihen-Dataset in einer Dataset-Gruppe haben.

    Sie können einem Ziel-Zeitreihen-Dataset auch bis zu zehn weitere Dimensionen hinzufügen. Wenn Sie nur ein Ziel-Zeitreihen-Dataset in Ihre Dataset-Gruppe aufnehmen, können Sie Prognosen entweder auf Artikelebene oder auf Prognosedimensionsebene erstellen. Weitere Informationen finden Sie unter CreatePredictor.

  • Dataset verwandter Zeitreihen — Enthält andere historische Zeitreihendaten als das Zielfeld, z. B.priceoderrevenueaus. Damit Daten verwandter Zeitreihen den Ziel-Zeitreihen-Daten zugeordnet werden können, muss jedes Dataset verwandter Zeitreihen die dieselben identifizierenden Felder enthalten. In der RETAIL-Domäne wären diese item_id und timestamp.

    Ein Dataset verwandter Zeitreihen könnteenthalten-Daten, die die Prognosen aus dem Zielzeitreihen-Dataset verfeinern. Sie können beispielsweise price-Daten in Ihr Dataset verwandter Zeitreihen für zukünftige Datumsangaben einschließen, für die Sie eine Prognose generieren möchten. Auf diese Weise kann Forecast-Prognosen mit einer zusätzlichen Dimension des Kontexts machen. Weitere Informationen finden Sie unter Verwenden von Datasets verwandter Zeitreihen.

  • Artikel-Metadaten-Dataset — Enthält Metadaten für Einzelhandelsartikel. Weitere Beispiele für Metadaten sind brand, category, color und genre.

Beispiel-Dataset mit einer Prognosedimension

Stellen Sie sich in Anlehnung an das vorherige Beispiel vor, dass Sie die Nachfrage nach Schuhen und Socken basierend auf den vorherigen Verkäufen in einem Geschäft prognostizieren möchten. Im folgenden Ziel-Zeitreihen-Dataset ist store eine Zeitreihen-Prognosedimension, während demand das Zielfeld ist. Socks werden in zwei Filialen (NYC und SFO) verkauft, und Schuhe werden nur in ORD verkauft.

Die ersten drei Zeilen dieser Tabelle enthalten die ersten verfügbaren Verkaufsdaten für die NYC-, SFO- und ORD-Filialen. Die letzten drei Zeilen enthalten die zuletzt aufgezeichneten Verkaufsdaten für jede Filiale. Die Zeile ... stellt alle Artikelverkaufsdaten dar, die zwischen dem ersten und dem letzten Eintrag aufgezeichnet wurden.

timestamp item_id store demand
2019-01-01 socks NYC 25
2019-01-05 socks SFO 45
2019-02-01 shoes ORD 10
...
2019-06-01 socks NYC 100
2019-06-05 socks SFO 5
2019-07-01 shoes ORD 50

Dataset-Schema

Jedes Dataset erfordert ein Schema, d. h. eine vom Benutzer bereitgestellte JSON-Zuweisung der Felder in Ihren Schulungsdaten. Hier listen Sie sowohl die erforderlichen als auch die optionalen Dimensionen und Funktionen auf, die Sie in Ihr Dataset aufnehmen möchten.

Wenn Ihr Datensatz ein Geolokalisierungsattribut enthält, definieren Sie das Attribut innerhalb des Schemas mit dem Attributtypgeolocationaus. Weitere Informationen finden Sie unterHinzufügen von Geolocation-Informationenaus. Um die Anwendung desWetterindexmüssen Sie ein Geolokalisierungsattribut in Ihre Zielzeitreihe und alle zugehörigen Zeitreihen-Datasets aufnehmen.

Einige Domänen haben optionale Dimensionen, die wir empfehlen, einzubeziehen. Optionale Dimensionen werden in den Beschreibungen der einzelnen Domänen weiter unten in dieser Anleitung aufgeführt. Ein Beispiel finden Sie unter RETAIL-Domäne. Alle optionalen Dimensionen nehmen den Datentyp string an.

Für jedes Dataset ist ein Schema erforderlichaus. Im Folgenden finden Sie das zugehörige Schema für das obige Zielzeitreihen-Dataset.

{ "attributes": [ { "AttributeName": "timestamp", "AttributeType": "timestamp" }, { "AttributeName": "item_id", "AttributeType": "string" }, { "AttributeName": "store", "AttributeType": "string" }, { "AttributeName": "demand", "AttributeType": "float" } ] }

Wenn Sie Ihre Schulungsdaten in ein Dataset mit diesem Schema hochladen, nimmt Forecast an, dass dietimestampFeld ist Spalte 1, dasitem_idFeld ist Spalte 2, dasstoreFeld ist Spalte 3 und dasdemandfield,ZielFeld, ist Spalte 4.

Für den Dataset-Typ der verwandte Zeitreihen müssen alle zugehörigen Funktionen den Attributtyp Gleitkommazahl oder Ganzzahl aufweisen. Für den Artikel-Metadaten-Dataset-Typ müssen alle Funktionen den Attributtyp Zeichenfolge haben. Weitere Informationen finden Sie unter SchemaAttribute.

Anmerkung

Importieren in &S3;attributeNameundattributeTypeFür jede Spalte im Dataset ist ein Paar erforderlich. Forecast reserviert eine Reihe von Namen, die nicht als Name eines Schemaattributs verwendet werden können. Die Liste der reservierten Namen finden Sie unter Reservierte Feldnamen.

Dataset-Gruppen

EINDataset-Gruppeist eine Sammlung vonein bis drei kostenlose Datensätze, einer von jedem Datensatztyp. Sie importieren Datasets in eine Dataset-Gruppe und verwenden dann die Dataset-Gruppe, um einen Predictor zu schulen.

Forecast umfasst die folgenden Operationen zum Erstellen von Dataset-Gruppen und zum Hinzufügen von Datasets zu den Gruppen:

Beheben von Konflikten in der Häufigkeit der Datensammlung

Forecast kann Daten importieren, die nicht mit der in derCreateDatasetverwenden. Sie können beispielsweise Daten importieren, für die die Sammlungshäufigkeit stündlich ist und einige der Daten nicht am Ende der Stunde (02:20, 02:45) mit einem Zeitstempel versehen sind. Forecast aggregiert die Datenum dem ausgerichteten Wert zu entsprechenaus. Die folgenden Tabellen zeigen ein Beispiel für eine Aggregierung.

Vor der Transformation

Zeit Daten Stundenanfang
2018-03-03 01:00:00 100 Ja
2018-03-03 02:20:00 50 Nein
2018-03-03 02:45:00 20 Nein
2018-03-03 04:00:00 120 Ja

Post-Transformation

Zeit Daten Hinweise
2018-03-03 01:00:00 100
2018-03-03 02:00:00 70 Summe der Werte zwischen 02:00:00 und 02:59:59 (50+20)
2018-03-03 03:00:00 Leer Keine Werte zwischen 03:00:00 und 03:59:59
2018-03-03 04:00:00 120

Zeitgrenzen

Zeitgrenzen

In der folgenden Tabelle sind dieGrenzen der ZeitausrichtungForecast verwendet wannAggregierenDaten.

Häufigkeit Grenze
Jahr Erster Tag des Jahres (1. Januar)
Monat Erster Tag des Monats
Woche Letzter Montag
Stunde Letzter Stundenanfang (09:00:00, 13:00:00)
Minute Letzter Minutenanfang (45:00, 06:00)

Die folgende Abbildung zeigt, wie Forecast Daten so transformiert, dass sie an diewöchentlich Grenze:

Richtlinien zur Datenaggregierung

Bei Verwendung desFeaturizationMethodAPI, legen Sie die Aggregationsmethode inFeaturizationMethodParametersaus. Der Aggregationsparameter akzeptiert die folgenden Werte:sum,avg,first,min, undmaxaus. Der Standardwert ist sum.

Eine Forecast geht nicht davon aus, dass Ihre Daten aus einer bestimmten Zeitzone stammen. Bei der Aggregierung von Zeitreihendaten werden jedoch die folgenden Annahmen gemacht:

  • Alle Daten stammen aus derselben Zeitzone.

  • Alle Prognosen befinden sich in derselben Zeitzone wie die Daten im Dataset.

  • Wenn Sie die SupplementaryFeatureFeiertags-FunktionimInputDataConfigParameterwert fürCreatePredictor-Betrieb stammen die Eingabedaten aus demselben Land.