Vorbereiten von Artikelinteraktionsdaten für das Training - Amazon Personalize

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Vorbereiten von Artikelinteraktionsdaten für das Training

Eine Artikelinteraktion ist ein positives Interaktionsereignis zwischen einem Benutzer und einem Artikel in Ihrem Katalog. Zum Beispiel ein Nutzer, der sich einen Film ansieht, sich ein Angebot ansieht oder ein Paar Schuhe kauft. Sie importieren Daten über die Interaktionen Ihrer Benutzer mit Ihren Artikeln in einen Datensatz mit Artikelinteraktionen. Sie können mehrere Ereignistypen aufzeichnen, z. B. Klicken, Ansehen oder Kaufen.

Wenn ein Benutzer beispielsweise auf einen bestimmten Artikel klickt und den Artikel dann mit „Gefällt mir“ markiert, können Sie Amazon Personalize diese Ereignisse als Trainingsdaten verwenden lassen. Für jedes Ereignis würden Sie die Benutzer-ID, die ID des Artikels, den Zeitstempel (im Unix-Zeitepochenformat) und den Ereignistyp (Klicken und Gefällt mir) aufzeichnen. Anschließend würden Sie beide Artikelinteraktionsereignisse zu einem Datensatz mit Artikelinteraktionen hinzufügen.

Für alle Domain-Anwendungsfälle und benutzerdefinierten Rezepte müssen sich Ihre Daten zu Interaktionen mit mehreren Artikeln in einer CSV Datei befinden. Jede Zeile sollte eine einzelne Interaktion zwischen einem Benutzer und einem Artikel darstellen. Nachdem Sie Ihre Daten vorbereitet haben, können Sie eine JSON Schemadatei erstellen. Diese Datei informiert Amazon Personalize über die Struktur Ihrer Daten. Weitere Informationen finden Sie unter JSONSchemadateien für Amazon Personalize Personalize-Schemas erstellen.

In den folgenden Abschnitten finden Sie weitere Informationen zur Vorbereitung Ihrer Artikelinteraktionsdaten für Amazon Personalize. Richtlinien für das Massendatenformat für alle Datentypen finden Sie unter Richtlinien für das Massendatenformat

Anforderungen an Daten zur Artikelinteraktion

In den folgenden Abschnitten werden die Anforderungen an Artikelinteraktionsdaten für Amazon Personalize aufgeführt. Weitere Kontingente finden Sie unterEndpunkte und Kontingente von Amazon Personalize.

Mindestanforderungen an die Schulung

Für alle Domain-Anwendungsfälle und benutzerdefinierten Rezepturen müssen Ihre Daten zu Interaktionen mit mehreren Artikeln die folgenden Angaben enthalten:

  • Mindestens 1000 Datensätze zu Artikelinteraktionen von Benutzern, die mit Artikeln in Ihrem Katalog interagieren. Diese Interaktionen können aus Massenimporten, gestreamten Ereignissen oder beidem stammen.

  • Mindestens 25 eindeutige Benutzer IDs mit jeweils mindestens zwei Artikelinteraktionen.

Für Qualitätsempfehlungen empfehlen wir, mindestens 50.000 Artikelinteraktionen von mindestens 1.000 Benutzern mit jeweils zwei oder mehr Artikelinteraktionen durchzuführen.

Um eine Empfehlung oder eine benutzerdefinierte Lösung zu erstellen, müssen Sie mindestens einen Datensatz mit Artikelinteraktionen erstellen.

Anforderungen an die Spalten

Ihre Artikelinteraktionsdaten müssen die folgenden Spalten enthalten.

  • USER_ID — Die eindeutige Kennung des Benutzers, der mit dem Artikel interagiert hat. Jedes Ereignis muss eine USER _ID haben. Es muss eine string mit einer maximalen Länge von 256 Zeichen sein.

  • ITEM_ID — Die eindeutige Kennung des Elements, mit dem der Benutzer interagiert hat. Jedes Ereignis muss eine Element-ID haben. Es muss eine string mit einer maximalen Länge von 256 Zeichen sein.

  • TIMESTAMP— Die Zeit, zu der das Ereignis eingetreten ist (im Zeitformat der Unix-Epoche in Sekunden). Jede Interaktion muss eine TIMESTAMP haben. Weitere Informationen finden Sie unter Daten mit Zeitstempel.

  • EVENT_ TYPE — Die Art des Interaktionsereignisses mit einem Artikel, z. B. Klicken, Ansehen oder Kaufen. Für Domain-Empfehlungen benötigen Sie eine Spalte mit Ereignistyp und jede Interaktion muss einen Ereignistyp haben. Für alle benutzerdefinierten Rezepte wird eine TYPE Spalte EVENT _ empfohlen, ist aber optional. Wenn Sie sie hinzufügen, muss jedes Ereignis einen Ereignistyp haben. Weitere Informationen finden Sie unter Daten zu Ereignistyp und Ereigniswert.

Es steht Ihnen frei, je nach Ihrem Anwendungsfall und Ihren Daten weitere benutzerdefinierte Spalten hinzuzufügen. Die maximale Anzahl optionaler Metadatenspalten beträgt 5. Diese Spalten können leere/Nullwerte enthalten. Wir empfehlen, dass diese Spalten zu mindestens 70 Prozent vollständig sind.

Daten mit Zeitstempel

Zeitstempeldaten müssen im Zeitformat der Unix-Epoche in Sekunden vorliegen. Der Epoch-Zeitstempel in Sekunden für das Datum 31. Juli 2020 lautet beispielsweise 1596238243. Verwenden Sie einen Epochenkonverter — Unix-Zeitstempelkonverter, um Datumsangaben in Zeitstempel der Unix-Epoche zu konvertieren.

Amazon Personalize verwendet Zeitstempeldaten, um die Aktualität zu berechnen und zeitbasierte Muster zu identifizieren. Es hilft Amazon Personalize dabei, die Empfehlungen up-to-date an die sich ändernden Präferenzen der Benutzer anzupassen.

Daten zu Ereignistyp und Ereigniswert

Ein Datensatz mit Artikelinteraktionen kann Ereignistyp- und Ereigniswertdaten für jede Interaktion speichern. Nur benutzerdefinierte Ressourcen verwenden Daten zu Ereigniswerten.

Daten vom Ereignistyp

Der Ereignistyp einer Elementinteraktion bietet Kontext zu ihrer Art und Bedeutung. Beispiele für Ereignistypen könnten „Klicken“, „Ansehen“ oder „Kaufen“ sein. Amazon Personalize verwendet Ereignistypdaten wie Klick - oder Kaufdaten, um die Absicht und das Interesse der Nutzer zu ermitteln. Die maximale Anzahl verschiedener Ereignistypen in Kombination mit der Gesamtzahl optionaler Metadatenspalten in einem Datensatz mit Artikelinteraktionen beträgt 10.

Für Domain-Empfehlungen benötigen Sie eine Spalte mit Ereignistyp und jede Interaktion muss einen Ereignistyp haben. Für alle benutzerdefinierten Rezepte wird eine TYPE Spalte EVENT _ empfohlen, ist aber optional. Wenn Sie sie hinzufügen, muss jedes Ereignis einen Ereignistyp haben.

Wenn Sie benutzerdefinierte Ressourcen erstellen, können Sie die Ereignisse, die für Schulungen verwendet werden, nach Ereignistyp auswählen. Wenn Ihr Datensatz mehrere Ereignistypen in einer TYPE Spalte EVENT _ enthält und Sie bei der Konfiguration einer benutzerdefinierten Lösung keinen Ereignistyp angeben, verwendet Amazon Personalize alle Artikelinteraktionsdaten für ein Training mit gleichem Gewicht, unabhängig vom Typ. Weitere Informationen finden Sie unter Auswahl der für das Training verwendeten Artikelinteraktionsdaten.

Für die folgenden Anwendungsfälle gelten spezifische Anforderungen an den Ereignistyp:

VIDEOAnwendungsfälle für die DEMAND Domäne _ON_

  • Weil Sie X gesehen haben, sind mindestens 1000 Watch Ereignisse erforderlich.

  • Für „Am beliebtesten“ sind mindestens 1000 Watch Ereignisse erforderlich.

ECOMMERCEAnwendungsfälle für Domänen

  • Am häufigsten werden mindestens 1000 View Ereignisse benötigt.

  • Für Bestseller sind mindestens 1000 Purchase Ereignisse erforderlich.

Positive und negative Ereignistypen

Amazon Personalize geht davon aus, dass jede Interaktion positiv ist. Interaktionen mit einem negativen Ereignistyp, wie z. B. Abneigung, verhindern nicht unbedingt, dass der Artikel in future Empfehlungen des Benutzers erscheint.

Es gibt folgende Möglichkeiten, wie negative Ereignisse und das Desinteresse der Nutzer die Empfehlungen beeinflussen können:

Daten zu Ereigniswerten (benutzerdefinierte Ressourcen)

Bei Daten zum Ereigniswert kann es sich um den Prozentsatz eines Films handeln, den ein Benutzer angesehen hat, oder um eine Bewertung von 10 Punkten. Wenn Sie benutzerdefinierte Lösungen erstellen, können Sie Datensätze auswählen, die für das Training verwendet werden, basierend auf den Daten in den VALUE Spalten EVENT EVENT _ TYPE und _. Bei Domain-Empfehlungen verwendet Amazon Personalize keine Daten zu Ereigniswerten und Sie können Ereignisse nicht vor dem Training filtern.

Um Datensätze nach Typ und Wert auszuwählen, zeichnen Sie Daten zu Ereignistyp und Ereigniswert für Ereignisse auf. Nicht alle Ereignisse müssen einen Ereigniswert haben. Welchen Wert Sie für jedes Ereignis auswählen, hängt davon ab, welche Daten Sie ausschließen möchten und welche Ereignistypen Sie aufzeichnen. Sie können beispielsweise die Benutzeraktivität, z. B. den Prozentsatz der Videos, die der Benutzer angesehen hat, für die Art von Wiedergabeereignissen abgleichen.

Wenn Sie eine Lösung konfigurieren, legen Sie einen bestimmten Wert als Schwellenwert fest, um Datensätze vom Training auszuschließen. Wenn Ihre EVENT VALUE _-Daten für Ereignisse mit einem EVENT _ TYPE von Ansehen beispielsweise den Prozentsatz eines Videos darstellen, das ein Benutzer angesehen hat, und Sie den Schwellenwert für den Ereigniswert auf 0,5 und den anzuzeigenden Ereignistyp festlegen, trainiert Amazon Personalize das Modell, indem es nur Interaktionsereignisse mit einem Wert von EVENT _ VALUE größer oder gleich 0,5 verwendet.

Weitere Informationen finden Sie unter Auswahl der für das Training verwendeten Artikelinteraktionsdaten

Kontextuelle Metadaten

Bei bestimmten Rezepten und Anwendungsfällen für Empfehlungen kann Amazon Personalize kontextbezogene Metadaten verwenden, um zugrunde liegende Muster zu identifizieren, die die relevantesten Elemente für Ihre Benutzer aufdecken. Kontextuelle Metadaten sind Interaktionsdaten, die Sie zum Zeitpunkt eines Ereignisses in der Umgebung des Benutzers sammeln, z. B. dessen Standort oder Gerätetyp. Sie können auch den Kontext eines Benutzers angeben, wenn Sie Empfehlungen für den Benutzer erhalten.

Fügen Sie kontextbezogene Metadaten hinzu, um Ihren Benutzern ein persönlicheres Erlebnis zu bieten und die Kaltstartphase für neue Benutzer zu verkürzen. In der Kaltstartphase sind Empfehlungen aufgrund fehlender historischer Benutzerdaten weniger relevant.

Wenn Ihre CSV Artikelinteraktionsdatei beispielsweise eine TYPE Spalte DEVICE _ mit phone Werten tablet und enthält, kann Amazon Personalize herausfinden, wie Kunden auf unterschiedlichen Geräten unterschiedlich einkaufen. Wenn Sie Empfehlungen für einen Benutzer erhalten, können Sie dessen Gerät angeben. Die Empfehlungen sind dann relevanter, auch wenn der Benutzer keinen Interaktionshistorie hat.

Im Folgenden wird gezeigt, wie Sie eine CSV Datei mit Artikelinteraktionen mit einer TYPE Spalte DEVICE _ als kontextuelle Metadaten formatieren würden.

ITEM_ID,USER_ID,TIMESTAMP,DEVICE_TYPE,EVENT_TYPE shoe12345,12,1428624000,Tablet,CLICK shoe12346,12,1420416000,Tablet,CLICK shoe12347,12,1410652800,Tablet,BUY shoe4444,13,1409961600,Phone,CLICK shoe4445,13,1402876800,Phone,BUY shoe4336,13,1402185600,Phone,CLICK .....

Für Domain-Datensatzgruppen können in den folgenden empfohlenen Anwendungsfällen kontextuelle Metadaten verwendet werden:

Für benutzerdefinierte Ressourcen beinhalten Rezepte, die kontextuelle Metadaten verwenden, Folgendes:

Informationen darüber, wie Sie beim Abrufen von Empfehlungen Kontext einbeziehen, finden Sie unter. Erhöhung der Relevanz von Empfehlungen mit kontextuellen Metadaten Ein durchgängiges Beispiel, das zeigt, wie kontextuelle Metadaten verwendet werden, finden Sie im Folgenden AWS Blogbeitrag zum Machine Learning: Erhöhen Sie die Relevanz Ihrer Amazon Personalize Personalize-Empfehlungen durch die Nutzung von Kontextinformationen.

Daten zu Eindrücken

Impressionen sind Listen von Elementen, die für einen Benutzer sichtbar waren, als er mit einem bestimmten Element interagierte (z. B. darauf klickte oder es sich ansah). Wenn Sie einen Domain-Anwendungsfall verwenden, der Personalisierung oder das Personalisierung durch Benutzer Rezept vorsieht, kann Amazon Personalize die Impressionsdaten als Leitfaden für die Erkundung verwenden.

Bei der Erkundung schließen Empfehlungen einige Elemente oder Aktionen ein, bei denen es in der Regel weniger wahrscheinlich ist, dass sie dem Benutzer empfohlen werden, wie z. B. neue Artikel oder Aktionen, Artikel oder Aktionen mit wenigen Interaktionen oder Artikel oder Aktionen, die für den Benutzer aufgrund seines bisherigen Verhaltens weniger relevant sind. Je häufiger ein Artikel in den Impressionsdaten vorkommt, desto unwahrscheinlicher ist es, dass Amazon Personalize den Artikel in die Suche einbezieht.

Wenn Sie eine Empfehlung oder Lösung erstellen, schließt Amazon Personalize Impressionsdaten immer aus dem Training aus. Das liegt daran, dass Amazon Personalize Ihre Modelle nicht mit Impressionsdaten trainiert. Stattdessen verwendet es sie, wenn Sie Empfehlungen erhalten, um dem Benutzer bei der Erkundung zu helfen.

Impressionswerte können maximal 1000 Zeichen lang sein (einschließlich des Zeichens mit dem senkrechten Balken). Für Domain-Datensatzgruppen können in den folgenden empfohlenen Anwendungsfällen Impressionsdaten verwendet werden:

Weitere Informationen zur Erkundung finden Sie unter. Exploration (Erkundung) Amazon Personalize kann zwei Arten von Impressionen modellieren: Implizite Eindrücke undExplizite Eindrücke.

Explizite Eindrücke

Explizite Impressionen sind Impressionen, die Sie manuell aufzeichnen und an Amazon Personalize senden. Verwenden Sie explizite Impressionen, um die Ergebnisse von Amazon Personalize zu manipulieren. Die Reihenfolge der Artikel hat keine Auswirkung.

Möglicherweise haben Sie eine Einkaufsanwendung, die Empfehlungen für Schuhe bietet. Wenn Sie nur Schuhe empfehlen, die derzeit auf Lager sind, können Sie diese Artikel anhand expliziter Impressionen angeben. Ihr Empfehlungs-Workflow, der explizite Impressionen verwendet, könnte wie folgt aussehen:

  1. Mit Amazon Personalize GetRecommendations API fordern Sie Empfehlungen für einen Ihrer Benutzer an.

  2. Amazon Personalize generiert Empfehlungen für den Benutzer, der Ihr Modell (Lösungsversion) verwendet, und gibt sie in der API Antwort zurück.

  3. Sie zeigen dem Benutzer nur die empfohlenen Schuhe, die auf Lager sind.

  4. Beim inkrementellen Datenimport in Echtzeit erfassen Sie, wenn Ihr Benutzer mit einem Paar Schuhen interagiert (z. B. klickt), die Auswahl in einem Aufruf von PutEvents API und listen die empfohlenen Artikel, die auf Lager sind, im impression Parameter auf. Ein Codebeispiel finden Sie unter. Erfassung von Artikelinteraktionsereignissen mit Impressionsdaten

    Um Impressionen in historische Artikelinteraktionsdaten zu importieren, können Sie explizite Impressionen in Ihrer CSV-Datei auflisten und jedes Element durch ein '|' trennen. Das vertikale Balkenzeichen wird auf die Obergrenze von 1000 Zeichen angerechnet. Ein Beispiel finden Sie unter Formatieren expliziter Impressionen.

  5. Amazon Personalize verwendet die Impressionsdaten als Leitfaden für die Erkundung, wobei future Empfehlungen neue Schuhe mit weniger Interaktionsdaten oder Relevanz beinhalten.

Formatieren expliziter Impressionen

Um explizite Impressionen in Ihre CSV Datei aufzunehmen, fügen Sie eine IMPRESSION Spalte hinzu. Fügen Sie für jede Artikelinteraktion eine Liste von itemIds durch einen senkrechten Balken ('|') getrennten Zeichen hinzu. Das Zeichen mit dem senkrechten Balken wird auf die Obergrenze von 1000 Zeichen für Impressionsdaten angerechnet. Wenn Sie in den PutEvents Vorgang explizite Impressionen einbeziehen, geben Sie die Elemente in einer Reihe von Zeichenfolgen an.

Im Folgenden finden Sie einen kurzen Auszug aus einer CSV Datei, die explizite Impressionen in der IMPRESSION Spalte enthält.

EVENT_TYPE IMPRESSION ITEM_ID TIMESTAMP USER_ID
klicken Sie auf

73|70|17|95|96

73

1586731606

USER_1
klicken Sie auf

35|82|78|57|20|63|1|90|76|75|49|71|26|24|25|6

35

1586735164

USER_2
... ... ... ... ...

In der Anwendung wurden USER_1 Benutzerelemente73,, 7017, und angezeigt95, 96 und der Benutzer entschied sich schließlich für den Artikel73. Wenn Sie auf der Grundlage dieser Daten eine neue Lösungsversion erstellen 7017, 96 werden die Elemente95,, und dem Benutzer seltener empfohlenUSER_1.

Implizite Eindrücke

Implizite Impressionen sind die von Amazon Personalize abgerufenen Empfehlungen, die Sie dem Benutzer zeigen. Ihre CSV Datei muss keine Spalten IMPRESSION oder RECOMMENDATION _ID enthalten, um implizite Impressionen zu verwenden. Stattdessen fügen Sie die RecommendationId (von den GetPersonalizedRanking Operationen GetRecommendations und zurückgegeben) in PutEvents Anfragen ein. Amazon Personalize leitet die impliziten Impressionen auf der Grundlage Ihrer Empfehlungsdaten ab.

Möglicherweise haben Sie eine Anwendung, die Empfehlungen für das Streamen von Videos bereitstellt. Ihr Empfehlungs-Workflow, der implizite Impressionen verwendet, könnte wie folgt aussehen:

  1. Mithilfe des Amazon Personalize GetRecommendations API Personalize-Vorgangs fordern Sie Videoempfehlungen für einen Ihrer Benutzer an.

  2. Amazon Personalize generiert Empfehlungen für den Benutzer, der Ihr Modell (Lösungsversion) verwendet, und gibt sie mit einem recommendationId in der API Antwort zurück.

  3. Sie zeigen Ihrem Benutzer die Videoempfehlungen in Ihrer Anwendung.

  4. Wenn Ihr Benutzer mit einem Video interagiert (z. B. klickt), zeichnen Sie die Auswahl in einem Anruf auf PutEvents API und fügen Sie das recommendationId als Parameter hinzu. Ein Codebeispiel finden Sie unterErfassung von Artikelinteraktionsereignissen mit Impressionsdaten.

  5. Amazon Personalize verwendet dierecommendationId, um die Impressionsdaten aus den vorherigen Videoempfehlungen abzuleiten, und verwendet dann die Impressionsdaten als Leitfaden für die Erkundung, wobei future Empfehlungen neue Videos mit weniger Interaktionsdaten oder Relevanz beinhalten.

    Weitere Informationen zur Aufzeichnung von Ereignissen mit impliziten Impressionsdaten finden Sie unter. Erfassung von Artikelinteraktionsereignissen mit Impressionsdaten

Beispiel für Interaktionsdaten

Die folgenden Interaktionsdaten stellen historische Benutzeraktivitäten auf einer Streaming-Video-Website dar. Sie könnten die Daten verwenden, um ein Modell zu trainieren, das Filmempfehlungen auf der Grundlage der Interaktionsdaten der Benutzer bereitstellt. Beachten Sie, dass einige Werte für EVENT _ Null VALUE sind.

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,watch,.50,881250949 186,302,watch,.75,891717742 22,377,click,,878887116 244,51,click,,880606923 166,346,watch,.50,886397596 298,474,watch,.25,884182806 115,265,click,,881171488 253,465,watch,.50,891628467 305,451,watch,.75,886324817

Amazon Personalize benötigt die TIMESTAMP Spalte USER_IDITEM_ID, und. USER_IDist die Kennung für einen Benutzer Ihrer Anwendung. ITEM_IDist die Kennung für einen Film. EVENT_TYPEund EVENT_VALUE sind die Identifikatoren für Benutzerinteraktionen. In den Beispieldaten handelt es sich bei den Ereignissen um click Ereignisse watch und bei den Werten um den Prozentsatz eines Videos, den ein Benutzer angesehen hat. Der TIMESTAMP steht für die Zeit der Unix-Zeit, in der der Film gekauft wurde.

Nachdem Sie Ihre Daten vorbereitet haben, können Sie eine JSON Schemadatei erstellen. Diese Datei informiert Amazon Personalize über die Struktur Ihrer Daten. Weitere Informationen finden Sie unter JSONSchemadateien für Amazon Personalize Personalize-Schemas erstellen. So würde die JSON Schemadatei für die Beispieldaten aussehen.

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }