Importieren von Datensätzen - Amazon Forecast

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Importieren von Datensätzen

Datasets enthalten die Daten, die zum Trainieren eines Predictors verwendet werden. Sie erstellen einen oder mehrere Amazon Forecast-Datasets und importieren Ihre Schulungsdaten darin. EINDatensatzgruppeist eine Sammlung ergänzender Datasets, die eine Reihe sich ändernder Parametern über eine Zeitserie hinweg detailliert beschreiben. Nachdem Sie eine Dataset-Gruppe erstellt haben, verwenden Sie sie zum Schulen eines Predictors.

Jede Dataset-Gruppe kann bis zu drei Datasets enthalten, von jedemDatensatztyp:Ziel-Zeitreihen, verwandte Zeitreihen und Artikel-Metadaten.

Zum Erstellen und Verwalten von Forecast-Datasets und -Dataset-Gruppen können Sie die Forecast-Konsole verwenden,AWS Command Line Interface(AWS CLI) oder AWS SDK.

Beispiel: Forecast-Datasets finden Sie in derAmazon-Prognose-Beispiel-GitHub-Repositoryaus.

Datensätze

Zum Erstellen und Verwalten von Forecast-Datasets können Sie die Forecast-APIs einschließlich derCreateDatasetundDescribeDatasetoperationen. Eine vollständige Liste der Forecast-APIs finden Sie unterAPI-Referenzaus.

Beim Erstellen eines Datasets geben Sie u. a. folgende Informationen an:

  • Die Häufigkeit/das Intervall, mit der bzw. dem Sie Ihre Daten aufgezeichnet haben. Sie können beispielsweise Einzelhandelsartikelverkäufe jede Woche aggregieren und aufzeichnen. In der Erste Schritte-Übung verwenden Sie den durchschnittlich verbrauchten Strom pro Stunde.

  • DieVorhersageformat (dasDomäne) und Dataset-Typ (innerhalb der Domäne)aus. Eine Dataset-Domäne gibt an, welche Art von Forecast Sie durchführen möchten, während ein Dataset-Typ Ihnen hilft, Ihre Schulungsdaten in prognostizfreundlichen Kategorien zu organisieren.

  • Das Dataset-Schema Ein Schema ordnet die Spaltenüberschriften Ihres Datasets zu. Wenn Sie beispielsweise die Nachfrage überwachen, haben Sie möglicherweise stündliche Daten über den Verkauf eines Artikels in mehreren Geschäften gesammelt. In diesem Fall würde Ihr Schema die Reihenfolge von links nach rechts definieren, in der Zeitstempel, Standort und Stundensatz in Ihrer Schulungsdatendatei angezeigt werden. Schemata definieren auch den Datentyp der einzelnen Spalten, z. B. string oder integer.

  • Geolokalisierung und Zeitzoneninformation. Das Geolocation-Attribut ist innerhalb des Schemas mit dem Attributtyp definiertgeolocationaus. Zeitzoneninformation wird mitCreateDatasetImportJobverwenden. Sowohl Geolokalisierung als auch Zeitzonendaten müssen einbezogen werden, um dieWetterindex.

Jede Spalte in Ihrem Prognosedataset stellt entweder eine Forecast darAbmessungoderMerkmalaus. Prognosedimensionen beschreiben die Aspekte Ihrer Daten, die sich im Laufe der Zeit nicht ändern, z. B. store oder location Prognosefunktionen enthalten alle Parameter in Ihren Daten, die im Laufe der Zeit variieren, z. B. price oder promotion. Einige Dimensionen, z. B. timestamp oder itemId, sind in Ziel-Zeitreihen-Datasets und Datasets verwandter Zeitreihen erforderlich.

Dataset-Domänen und Dataset-Typen

Wenn Sie ein Forecast-Dataset erstellen, wählen Sie eine Domäne und einen Dataset-Typ aus. Forecast stellt Domänen für eine Reihe von Anwendungsfällen bereit, z. B. Prognose der Nachfrage im Einzelhandel oder des Web-Datenverkehrs. Sie können auch eine benutzerdefinierte Domäne erstellen. Eine vollständige Liste der Prognose-Domänen finden Sie unterVordefinierte Dataset-Domänen und Dataset-Typenaus.

Innerhalb jeder Domäne können Forecast-Benutzer die folgenden Arten von Datasets angeben:

  • Zielzeitreihendatensatz(Erforderlich) —Verwenden Sie diesen Datensatztyp, wenn Ihre Trainingsdaten eine Zeitreihe sindundenthält das -Feld, für das Sie eine Prognose generieren möchten. Dieses Feld wird als Zielfeld bezeichnet.

  • Dataset verwandter Zeitreihen (optional) — Wählen Sie diesen Dataset-Typ aus, wenn es sich bei den Schulungsdaten um eine Zeitreihe handelt.aber esnichtSchließen Sie das Zielfeld einaus. Wenn Sie beispielsweise eine Artikelnachfrage prognostizieren, kann ein Dataset verwandter Zeitreihen zwar über price aber nicht über demand als Feld verfügen.

  • Artikelmetadaten-Dataset (optional) — Wählen Sie diesen Datensatztyp aus, wenn Ihre Trainingsdatenist nichtZeitreihendaten, beinhaltet aberMetadateninformationen über die Elemente in der Zielzeitreihe oder verwandten Zeitreihen-Datasetsaus. Wenn Sie beispielsweise eine Artikelnachfrage prognostizieren, kann ein Artikel-Metadaten-Dataset sein.coloroderbrandals Dimensionen. Forecast berücksichtigt berücksichtigt berücksichtigt berücksichtigt berücksichtigt berücksichtigt nur die Daten, die von einem Artikel-Metadaten-Dataset-Typ bereitgestellt werden, wenn Sie dasCNN-QRoderDeepAR+Algorithmus.

Abhängig von den Informationen in Ihren Schulungsdaten und dem, was Sie prognostizieren möchten, können Sie mehr als ein Dataset erstellen.

Angenommen, Sie möchten eine Prognose für die Nachfrage nach Einzelhandelsartikeln wie Schuhe, Socken usw. erstellen. Es bietet sich an, die folgenden Datasets in der RETAIL-Domäne zu erstellen:

  • Zielzeitreihen-Dataset — Enthält die historischen Zeitreihen-Nachfragedaten für die Einzelhandelsartikel (item_id,timestampund das Zielfelddemand) enthalten. Da es das Zielfeld angibt, für das Sie eine Prognose erstellen möchten, müssen Sie mindestens ein Ziel-Zeitreihen-Dataset in einer Dataset-Gruppe haben.

    Sie können einem Ziel-Zeitreihen-Dataset auch bis zu zehn weitere Dimensionen hinzufügen. Wenn Sie nur ein Ziel-Zeitreihen-Dataset in Ihre Dataset-Gruppe aufnehmen, können Sie Prognosen entweder auf Artikelebene oder auf Prognosedimensionsebene erstellen. Weitere Informationen finden Sie unter CreatePredictor.

  • Dataset verwandter Zeitreihen — Enthält andere historische Zeitreihendaten als das Zielfeld, z. B.priceoderrevenueaus. Damit Daten verwandter Zeitreihen den Ziel-Zeitreihen-Daten zugeordnet werden können, muss jedes Dataset verwandter Zeitreihen die dieselben identifizierenden Felder enthalten. In der RETAIL-Domäne wären diese item_id und timestamp.

    Möglicherweise ist ein verwandter ZeitreihendatensatzenthaltenDaten, die die Prognosen aus dem Zielzeitreihen-Dataset verfeinern. Sie können beispielsweise price-Daten in Ihr Dataset verwandter Zeitreihen für zukünftige Datumsangaben einschließen, für die Sie eine Prognose generieren möchten. Auf diese Weise kann Forecast Vorhersagen mit einer zusätzlichen Dimension des Kontexts machen. Weitere Informationen finden Sie unter Verwenden von Datasets verwandter Zeitreihen.

  • Artikel-Metadaten-Dataset — Enthält Metadaten für Einzelhandelsartikel. Weitere Beispiele für Metadaten sind brand, category, color und genre.

Beispiel-Dataset mit einer Prognosedimension

Stellen Sie sich in Anlehnung an das vorherige Beispiel vor, dass Sie die Nachfrage nach Schuhen und Socken basierend auf den vorherigen Verkäufen in einem Geschäft prognostizieren möchten. Im folgenden Ziel-Zeitreihen-Dataset ist store eine Zeitreihen-Prognosedimension, während demand das Zielfeld ist. Socks werden in zwei Filialen (NYC und SFO) verkauft, und Schuhe werden nur in ORD verkauft.

Die ersten drei Zeilen dieser Tabelle enthalten die ersten verfügbaren Verkaufsdaten für die NYC-, SFO- und ORD-Filialen. Die letzten drei Zeilen enthalten die zuletzt aufgezeichneten Verkaufsdaten für jede Filiale. Die Zeile ... stellt alle Artikelverkaufsdaten dar, die zwischen dem ersten und dem letzten Eintrag aufgezeichnet wurden.

timestamp item_id store demand
2019-01-01 socks NYC 25
2019-01-05 socks SFO 45
2019-02-01 shoes ORD 10
...
2019-06-01 socks NYC 100
2019-06-05 socks SFO 5
2019-07-01 shoes ORD 50

Dataset-Schema

Jedes Dataset erfordert ein Schema, d. h. eine vom Benutzer bereitgestellte JSON-Zuweisung der Felder in Ihren Schulungsdaten. Hier listen Sie sowohl die erforderlichen als auch die optionalen Dimensionen und Funktionen auf, die Sie in Ihr Dataset aufnehmen möchten.

Wenn Ihr Datensatz ein Geolokalisierungsattribut enthält, definieren Sie das Attribut innerhalb des Schemas mit dem Attributtypgeolocationaus. Weitere Informationen finden Sie unterHinzufügen von Geolocation-Informationenaus. Um dieWetterindexenthält, müssen Sie ein Geolokalisierungsattribut in Ihre Zielzeitreihe und alle zugehörigen Zeitreihen-Datasets aufnehmen.

Einige Domänen haben optionale Dimensionen, die wir empfehlen, einzubeziehen. Optionale Dimensionen werden in den Beschreibungen der einzelnen Domänen weiter unten in dieser Anleitung aufgeführt. Ein Beispiel finden Sie unter RETAIL-Domäne. Alle optionalen Dimensionen nehmen den Datentyp string an.

Für jedes Dataset ist ein Schema erforderlichaus. Im Folgenden finden Sie das zugehörige Schema für das obige Zielzeitreihen-Dataset.

{ "attributes": [ { "AttributeName": "timestamp", "AttributeType": "timestamp" }, { "AttributeName": "item_id", "AttributeType": "string" }, { "AttributeName": "store", "AttributeType": "string" }, { "AttributeName": "demand", "AttributeType": "float" } ] }

Wenn Sie Ihre Schulungsdaten in ein Dataset mit diesem Schema hochladen, nimmt Forecast an, dass dertimestampFeld ist Spalte 1, dasitem_idFeld ist Spalte 2, dasstoreFeld ist Spalte 3 und dasdemandfield, derZielFeld, ist Spalte 4.

Für den Dataset-Typ der verwandte Zeitreihen müssen alle zugehörigen Funktionen den Attributtyp Gleitkommazahl oder Ganzzahl aufweisen. Für den Artikel-Metadaten-Dataset-Typ müssen alle Funktionen den Attributtyp Zeichenfolge haben. Weitere Informationen finden Sie unter SchemaAttribute.

Anmerkung

Importieren in &S3;attributeNameundattributeTypeFür jede Spalte im Dataset ist ein Paar erforderlich. Forecast reserviert eine Reihe von Namen, die nicht als Name eines Schemaattributs verwendet werden können. Die Liste der reservierten Namen finden Sie unter Reservierte Feldnamen.

Dataset-Gruppen

EINDatensatzgruppeist eine Sammlung vonein bis drei kostenlose Datensätze, einer von jedem Datensatztyp. Sie importieren Datasets in eine Dataset-Gruppe und verwenden dann die Dataset-Gruppe, um einen Predictor zu schulen.

Forecast umfasst die folgenden Operationen zum Erstellen von Dataset-Gruppen und zum Hinzufügen von Datasets zu den Gruppen:

Beheben von Konflikten in der Häufigkeit der Datensammlung

Forecast kann Prädiktoren mit Daten trainieren, die nicht mit der Datenfrequenz übereinstimmen, die Sie imCreateDatasetverwenden. Sie können beispielsweise Daten in stündlichen Intervallen aufgezeichneten Daten importieren, obwohl einige der Daten nicht am Ende der Stunde (02:20, 02:45) mit einem Zeitstempel versehen sind. Forecast verwendet die von Ihnen angegebene Datenfrequenz, um mehr über Ihre Daten zu erfahren. Dann aggregiert Forecast die Daten während des Prädiktortrainings. Weitere Informationen finden Sie unterDatenaggregation für verschiedene Prognosefrequenzenaus.