Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Evaluierung einer Amazon Personalize Personalize-Lösungsversion mit Metriken
Sie können die Leistung Ihrer Lösungsversion anhand von Offline- und Online-Metriken bewerten. Online-Metriken sind die empirischen Ergebnisse, die Sie bei den Interaktionen Ihrer Benutzer mit Empfehlungen in Echtzeit beobachten. Sie können beispielsweise die Klickrate Ihrer Nutzer aufzeichnen, wenn sie Ihren Katalog durchsuchen. Sie sind dafür verantwortlich, alle Online-Kennzahlen zu generieren und aufzuzeichnen.
Offline-Metriken sind die Metriken, die Amazon Personalize generiert, wenn Sie eine Lösungsversion trainieren. Mit Offline-Metriken können Sie die Leistung des Modells bewerten. Sie können sich die Auswirkungen der Änderung der Hyperparameter einer Lösung ansehen und Ergebnisse von Modellen vergleichen, die mit unterschiedlichen Rezepturen an denselben Daten in derselben Datensatzgruppe trainiert wurden.
Vermeiden Sie es, Metriken verschiedener Lösungsversionen zu vergleichen, die mit unterschiedlichen Daten trainiert wurden. Der Unterschied bei den Kennzahlen könnte eher auf die unterschiedlichen Daten als auf die Modellleistung zurückzuführen sein. Beispielsweise könnten Sie eine Datensatzgruppe mit spärlichen purchase
Ereignisdaten für jeden Benutzer und eine weitere mit robusten view
Ereignisdaten haben. Basierend auf Kennzahlen wie der Version der Lösungprecision at K
, die auf der Ansicht von Ereignisdaten trainiert wurde, kann es aufgrund der höheren Anzahl von Interaktionen fälschlicherweise so aussehen, als ob sie besser abschneidet.
Um Leistungskennzahlen zu erhalten, teilt Amazon Personalize die Eingabeinteraktionsdaten in einen Trainingssatz, einen Testsatz und für PERSONALIZED_ACTIONS einen Validierungssatz auf. Die Aufteilung hängt von der Art des Rezepts ab, das Sie wählen:
-
Bei USER_SEGMENTATION-Rezepten besteht der Trainingssatz aus 80% der Interaktionsdaten jedes Benutzers und der Testsatz besteht aus 20% der Interaktionsdaten jedes Benutzers.
-
Bei allen anderen Rezepttypen besteht das Trainingsset zu 90% aus Ihren Benutzern und deren Interaktionsdaten. Das Testset besteht aus den verbleibenden 10% der Benutzer und ihren Interaktionsdaten.
Amazon Personalize erstellt dann die Lösungsversion mithilfe des Trainingssets. Nach Abschluss der Schulung gibt Amazon Personalize der neuen Lösungsversion die ältesten 90% der Benutzerdaten aus dem Testsatz als Eingabe. Amazon Personalize berechnet dann Metriken, indem es die Empfehlungen, die die Lösungsversion generiert, mit den tatsächlichen Interaktionen in den neuesten 10% der Benutzerdaten aus dem Testsatz vergleicht.
Um eine Ausgangsbasis für Vergleichszwecke zu erstellen, empfehlen wir die Verwendung des Beliebtheit-Anzahl Rezepts, das die K beliebtesten Artikel empfiehlt.
Metriken zur Lösungsversion werden abgerufen
Nachdem Sie eine Lösungsversion erstellt haben, können Sie anhand von Metriken deren Leistung bewerten. Sie können Metriken für eine Lösungsversion mit der Amazon Personalize Personalize-Konsole AWS Command Line Interface (AWS CLI) und AWS SDKs abrufen.
Themen
Metriken zur Lösungsversion werden abgerufen (Konsole)
Um die Empfehlungsmetriken in der Konsole anzuzeigen, navigieren Sie zur Detailseite für Ihre Lösungsversion.
-
Öffnen Sie die Amazon Personalize Personalize-Konsole unter https://console.aws.amazon.com/personalize/home
und melden Sie sich bei Ihrem Konto an. -
Wählen Sie auf der Seite Datensatzgruppen Ihre benutzerdefinierte Datensatzgruppe aus.
-
Wählen Sie im Navigationsbereich Benutzerdefinierte Ressourcen und dann Lösungen und Rezepte aus.
-
Wählen Sie Ihre Lösung aus.
-
Wählen Sie unter Lösungsversionen Ihre Lösungsversion aus, um die zugehörige Detailseite aufzurufen. Die Metriken sind auf der Registerkarte Metriken zur Lösungsversion im unteren Bereich aufgeführt. Definitionen von Metriken finden Sie unterMetrische Definitionen.
Nachdem Sie Ihre Lösungsversion bewertet haben, können Sie eine Kampagne erstellen, indem Sie die Lösungsversion mit den besten Kennzahlen für Ihren Anwendungsfall bereitstellen. Weitere Informationen zur Bereitstellung einer Lösung finden Sie unterBereitstellen einer Amazon Personalize Personalize-Lösungsversion mit einer Kampagne.
Metriken zur Lösungsversion werden abgerufen ()AWS CLI
Sie erhalten die Metriken für eine bestimmte Lösungsversion, indem Sie die GetSolutionMetricsOperation aufrufen. Der folgende Code zeigt, wie Sie Metriken mit dem AWS CLI abrufen.
personalize get-solution-metrics --solution-version-arn
solution version ARN
Im Folgenden finden Sie ein Beispiel für die Ausgabe einer Lösungsversion, die mithilfe des Personalisierung durch Benutzer Rezepts mit einem zusätzlichen Optimierungsziel erstellt wurde.
{ "solutionVersionArn": "arn:aws:personalize:us-west-2:acct-id:solution/SolutionName/<version-id>", "metrics": { "coverage": 0.27, "mean_reciprocal_rank_at_25": 0.0379, "normalized_discounted_cumulative_gain_at_5": 0.0405, "normalized_discounted_cumulative_gain_at_10": 0.0513, "normalized_discounted_cumulative_gain_at_25": 0.0828, "precision_at_5": 0.0136, "precision_at_10": 0.0102, "precision_at_25": 0.0091, "average_rewards_at_k": 0.653 } }
Erläuterungen zu den einzelnen Metriken finden Sie unterMetrische Definitionen. Nachdem Sie Ihre Lösungsversion bewertet haben, können Sie eine Kampagne erstellen, indem Sie die Lösungsversion mit den besten Kennzahlen für Ihren Anwendungsfall bereitstellen. Weitere Informationen zur Bereitstellung einer Lösung finden Sie unterBereitstellen einer Amazon Personalize Personalize-Lösungsversion mit einer Kampagne.
Metriken zur Lösungsversion (AWS SDKs) werden abgerufen
Sie erhalten die Metriken für eine bestimmte Lösungsversion, indem Sie die GetSolutionMetricsOperation aufrufen. Verwenden Sie den folgenden Code zum Abrufen von Metriken.
Im Folgenden finden Sie ein Beispiel für die Ausgabe einer Lösungsversion, die mithilfe des Personalisierung durch Benutzer Rezepts mit einem zusätzlichen Optimierungsziel erstellt wurde.
{ "solutionVersionArn": "arn:aws:personalize:us-west-2:acct-id:solution/MovieSolution/<version-id>", "metrics": { "coverage": 0.27, "mean_reciprocal_rank_at_25": 0.0379, "normalized_discounted_cumulative_gain_at_5": 0.0405, "normalized_discounted_cumulative_gain_at_10": 0.0513, "normalized_discounted_cumulative_gain_at_25": 0.0828, "precision_at_5": 0.0136, "precision_at_10": 0.0102, "precision_at_25": 0.0091, "average_rewards_at_k": 0.653 } }
Erläuterungen zu den einzelnen Metriken finden Sie unterMetrische Definitionen. Nachdem Sie Ihre Lösungsversion bewertet haben, können Sie eine Kampagne erstellen, indem Sie die Lösungsversion mit den besten Kennzahlen für Ihren Anwendungsfall bereitstellen. Weitere Informationen zur Bereitstellung einer Lösung finden Sie unterBereitstellen einer Amazon Personalize Personalize-Lösungsversion mit einer Kampagne.
Metrische Definitionen
Die von Amazon Personalize für Lösungsversionen generierten Metriken werden im Folgenden unter Verwendung der folgenden Begriffe beschrieben:
-
Eine relevante Empfehlung ist eine Empfehlung für ein Element, mit dem der Benutzer tatsächlich interagiert hat. Diese Elemente stammen aus den neuesten 10% der Interaktionsdaten der einzelnen Benutzer aus dem Testsatz.
-
Rang bezieht sich auf die Position eines empfohlenen Elements in der Liste der Empfehlungen. Position 1 (ganz oben in der Liste) ist möglicherweise am relevantesten für den Benutzer.
Für jede Metrik sind höhere Zahlen (näher an 1) besser. Weitere Informationen finden Sie in den unter aufgeführten RessourcenWeitere Ressourcen.
- Abdeckung
-
Der Wert für die Reichweite gibt an, wie viele einzelne Artikel (für Artikelempfehlungen), Aktionen (für Handlungsempfehlungen) oder Benutzer (für Empfehlungen für Benutzersegmente) von Amazon Personalize an der Gesamtzahl der eindeutigen Datensätze in Ihren Datensätzen empfohlen werden könnten.
Ein höherer Deckungsgrad bedeutet, dass Amazon Personalize einen größeren Teil Ihres Katalogs empfiehlt, anstatt dass die Datensätze wiederholt identisch sind. Rezepturen, die die Suche nach Artikeln ermöglichen, wie z. B. Benutzerpersonalisierung, haben eine höhere Reichweite als Rezepte, bei denen dies nicht der Fall ist, wie z. B. ähnliche Artikel.
- Mittlerer wechselseitiger Rang bei 25
-
Diese Kennzahl gibt Aufschluss über die Fähigkeit eines Modells, relevante Artikelempfehlungen an der obersten Position zu generieren.
Sie können ein Modell mit einem hohen mittleren reziproken Rang von 25 wählen, wenn Sie Artikelsuchergebnisse für einen Benutzer generieren und nicht erwarten, dass der Benutzer einen Artikel wählt, der weiter unten auf der Liste steht. Beispielsweise wählen Benutzer häufig das erste Kochrezept in den Suchergebnissen. Amazon Personalize generiert diese Metrik nicht für PERSONALIZED_ACTIONS- oder USER_SEGMENTATION-Rezepte.
Amazon Personalize berechnet diese Metrik anhand des durchschnittlichen reziproken Rangwerts für Empfehlungsanfragen. Jeder reziproke Rangwert wird wie folgt berechnet:
1 / the rank of the highest item interacted with by the user
, wobei die möglichen Rankings insgesamt 25 sind. Andere Elemente mit niedrigerem Rang, mit denen der Benutzer interagiert, werden ignoriert. Wenn der Benutzer das erste Element ausgewählt hat, ist die Punktzahl 1. Wenn er keine Artikel auswählt, ist die Punktzahl 0.Sie könnten beispielsweise drei verschiedenen Benutzern jeweils 25 Empfehlungen zeigen:
-
Wenn Benutzer 1 auf Rang 4 auf das Element und auf Rang 10 auf das Element klickt, beträgt die reziproke Rangbewertung 1/4.
-
Wenn Benutzer 2 auf ein Objekt auf Rang 2, auf ein Objekt auf Rang 4 und auf ein Objekt auf Rang 12 klickt, beträgt sein reziproker Rangwert 1/2.
-
Wenn Benutzer 3 auf ein einzelnes Objekt auf Rang 6 klickt, beträgt sein reziproker Rangwert 1/6.
Der durchschnittliche reziproke Rang aller Anfragen nach Empfehlungen (in diesem Fall 3) wird wie folgt berechnet.
(1/4 + 1/2 + 1/6) / 3 = .3056
-
- normalisierter diskontierter kumulativer Gewinn (NDCG) bei K (5/10/25)
-
Diese Kennzahl gibt Aufschluss darüber, wie gut Ihr Modell Artikel- oder Handlungsempfehlungen bewertet, wobei K für eine Stichprobengröße von 5, 10 oder 25 Empfehlungen steht. Diese Metrik ist nützlich, wenn Sie am meisten an der Rangfolge von Empfehlungen interessiert sind, die sich nicht nur auf das Element oder die Aktion mit dem höchsten Rang beziehen (siehe dazu
mean reciprocal rank at 25
). Die Punktzahl fürNDCG at 10
wäre beispielsweise nützlich, wenn Sie über eine Anwendung verfügen, die bis zu 10 Filme gleichzeitig in einem Karussell anzeigt.Amazon Personalize berechnet den NDCG, indem Empfehlungen auf der Grundlage ihrer Rangposition für jeden Benutzer im Testset gewichtet werden. Jede Empfehlung wird (bei geringerer Gewichtung) um einen Faktor abgezogen, der von ihrer Position abhängt. Die letzte Kennzahl ist der Durchschnitt
NDCG at K
aller Benutzer in der Testgruppe. DabeiNDCG at K
wird davon ausgegangen, dass Empfehlungen, die weiter unten auf der Liste stehen, weniger relevant sind als Empfehlungen, die weiter oben auf der Liste stehen.Amazon Personalize verwendet einen Gewichtungsfaktor von
1/log(1 + position)
, wobei die Position ganz oben auf der Liste steht.1
- Präzision bei K
-
Diese Kennzahl gibt Ihnen Aufschluss darüber, wie relevant die Empfehlungen Ihres Modells sind, basierend auf einer Stichprobengröße von K (5, 10 oder 25) Empfehlungen.
Amazon Personalize berechnet diese Metrik auf der Grundlage der Anzahl der relevanten Empfehlungen aus den K wichtigsten Empfehlungen für jeden Benutzer im Testsatz, geteilt durch K, wobei K für 5, 10 oder 25 steht. Die letzte Kennzahl ist der Durchschnitt aller Benutzer in der Testgruppe.
Wenn Sie einem Benutzer beispielsweise 10 Elemente empfehlen und der Benutzer mit 3 davon interagiert, beträgt die Genauigkeit bei K 3 korrekt vorhergesagte Elemente geteilt durch die insgesamt 10 empfohlenen Elemente:
3 / 10 = .30
.Diese Kennzahl belohnt die präzise Empfehlung relevanter Artikel. Je näher der Wert an eins liegt, desto genauer ist das Modell.
- precision
-
Wenn Sie eine Lösungsversion mit dem Next-Best-Action-Rezept trainieren, generiert Amazon Personalize stattdessen eine
precision
Metrik.precision at K
Diese Metrik gibt an, wie gut Ihr Modell darin ist, Aktionen vorherzusagen, die Benutzer tatsächlich ergreifen werden.Um zu berechnen
precision
, dividiert Amazon Personalize für jede Aktion in Ihrem Datensatz die Anzahl der Benutzer, von denen korrekt vorhergesagt wurde, dass sie die Aktion ausführen würden, durch die Gesamtzahl der empfohlenen Aktionen. Amazon Personalize berechnet dann den Durchschnitt für alle Aktionen in Ihrem Datensatz.Wenn beispielsweise 100 Benutzern eine Aktion empfohlen wurde und 60 Benutzer die Aktion durchgeführt haben und 40 Benutzer, die dies nicht getan haben, lautet der Wert
precision
für die Aktion:.60 / 100 = .60
Amazon Personalize wendet diese Berechnung dann für alle Aktionen an und gibt den Durchschnitt zurück.Diese Kennzahl belohnt präzise Empfehlungen relevanter Maßnahmen. Je näher der Wert an eins liegt, desto genauer ist das Modell.
- average_rewards_at_k
-
Wenn Sie eine Lösungsversion (ein Modell trainieren) für eine Lösung mit einem Optimierungsziel erstellen, generiert Amazon Personalize eine
average_rewards_at_k
Metrik. Die Punktzahl füraverage_rewards_at_k
gibt an, wie gut die Lösungsversion bei der Erreichung Ihres Ziels abschneidet. Um diese Metrik zu berechnen, berechnet Amazon Personalize die Prämien für jeden Benutzer wie folgt:rewards_per_user = total rewards from the user's interactions with their top 25 reward generating recommendations / total rewards from the user's interactions with recommendations
Der Endwert
average_rewards_at_k
ist der Durchschnitt aller Werte,rewards_per_user
normalisiert auf einen Dezimalwert kleiner oder gleich 1 und größer als 0. Je näher der Wert an 1 liegt, desto mehr Gewinne können Sie von Empfehlungen im Durchschnitt pro Benutzer erwarten.Wenn Ihr Ziel beispielsweise darin besteht, den Umsatz aus Klicks zu maximieren, berechnet Amazon Personalize die einzelnen Benutzerwerte, indem der Gesamtumsatz, der durch die Artikel generiert wurde, auf die der Benutzer aus seinen 25 teuersten Empfehlungen geklickt hat, durch den Umsatz aus allen empfohlenen Artikeln dividiert wird, auf die der Benutzer geklickt hat. Amazon Personalize gibt dann einen normalisierten Durchschnitt aller Benutzerbewertungen zurück. Je näher der
average_rewards_at_k
Wert an 1 liegt, desto mehr Umsatz können Sie im Durchschnitt pro Benutzer aus Empfehlungen erwarten.Weitere Informationen finden Sie unter Optimierung einer Lösung für ein zusätzliches Ziel.
- Genauigkeit der Trendvorhersage
-
Wenn Sie die Lösungsversion mit dem Jetzt im Trend Rezept trainiert haben, ist dies die Steigerungsrate der vom Modell empfohlenen Artikel. Je höher die Genauigkeit der Trendvorhersage ist (je näher an 1), desto besser kann das Modell Trendelemente korrekt identifizieren.
Um die Beliebtheitssteigerung zu berechnen, dividiert Amazon Personalize die Steigerungsrate der Beliebtheit aller empfohlenen Artikel durch den gesamten Beliebtheitszuwachs der 25 beliebtesten Artikel. Diese Artikel stammen aus den tatsächlichen Interaktionen im Testset.
Abhängig von Ihrer Datenverteilung und Ihrer Wahl für die Häufigkeit der Trenderkennung kann der Wert für die Genauigkeit der Trendvorhersagen 0,0 sein.
- Treffer (Treffer bei K)
-
Wenn Sie die Lösungsversion mit einem USER_SEGMENTATION-Rezept trainiert haben, ist das die durchschnittliche Anzahl von Benutzern in den prognostizierten Top-Ergebnissen K, die den tatsächlichen Benutzern entsprechen. Tatsächliche Benutzer sind die Benutzer, die tatsächlich mit den Elementen im Testsatz interagiert haben. K gehört zu den obersten 1% der relevantesten Nutzer. Je höher der Wert, desto genauer sind die Vorhersagen.
- Rückruf (Rückruf bei K)
-
Wenn Sie die Lösungsversion mit einem USER_SEGMENTATION-Rezept trainiert haben, ist das der durchschnittliche Prozentsatz der prognostizierten Benutzer in den vorhergesagten wichtigsten K-Ergebnissen, die den tatsächlichen Benutzern entsprechen. Tatsächliche Benutzer sind die Benutzer, die tatsächlich mit den Elementen im Testsatz interagiert haben. K gehört zu den obersten 1% der relevantesten Nutzer. Je höher der Wert, desto genauer sind die Vorhersagen.
- Rückruf
-
Wenn Sie eine Lösungsversion mit dem Rezept „Die nächste beste Aktion“ trainieren, zeigt Ihnen diese Metrik, wie gut Ihre Lösungsversion darin ist, Aktionen zu erkennen, mit denen Benutzer interagieren werden.
Um zu berechnen
recall
, dividiert Amazon Personalize für jede Aktion in Ihrem Datensatz die Anzahl der Benutzer, für die die Aktion korrekt vorhergesagt wurde, durch die Gesamtzahl der Benutzer, die die Aktion tatsächlich im Testsatz ausführen. Amazon Personalize berechnet dann den Durchschnitt für alle Aktionen in Ihrem Datensatz.Wenn beispielsweise 100 Benutzer im Testset eine Aktion ausführen und Amazon Personalize vorausgesagt hat, dass 50 dieser Benutzer die Aktion ausführen würden, lautet die
recall
für die Aktion:50 / 100 = .50
. Amazon Personalize wendet diese Berechnung dann für alle Aktionen an und gibt den Durchschnitt zurück. - Fläche unter der Kurve (AUC)
-
Wenn Sie die Lösungsversion mit einer PERSONALIZED_ACTIONS-Rezeptur trainiert haben, ist das die Fläche unter der Empfänger-Betriebscharakteristikkurve für Ihre Lösungsversion. Diese Kennzahl gibt Aufschluss darüber, wie gut die Lösungsversion bei der korrekten Identifizierung von Aktionen abschneidet, die Benutzer ergreifen werden.
Die Betriebscharakteristikkurve des Empfängers stellt die Leistung der Lösungsversion dar. In der Abbildung werden die Werte „richtig positiv“ (Aktionen, die korrekt als relevant vorhergesagt wurden) und „falsch positiv“ (Aktionen, die fälschlicherweise als relevant vorhergesagt wurden) bei unterschiedlichen Schwellenwerten dargestellt. Die Fläche unter der Kurve (AUC) ist eine Punktzahl, die die Leistung der Lösungsversion auf der Grundlage ihrer Kurve zusammenfasst.
Die AUC einer Lösungsversion kann zwischen 0 und 1 liegen. Je näher an 1, desto besser kann das Modell relevante Aktionen für Ihre Benutzer vorhersagen.
Beispiel
Im Folgenden finden Sie ein einfaches Beispiel für eine Lösungsversion, die eine Liste mit Empfehlungen für einen bestimmten Benutzer erstellt. Die zweite und fünfte Empfehlung stimmt mit Datensätzen in den Testdaten für diesen Benutzer überein. Dies sind die relevanten Empfehlungen. Wenn K
auf 5
gesetzt ist, werden die folgenden Metriken für den Benutzer generiert.
- reciprocal_rank
-
Berechnung: 1/2
Ergebnis: 0,5000
- normalized_discounted_cumulative_gain_at_5
-
Berechnung: (1/log(1 + 2) + 1/log(1 + 5)) / (1/log(1 + 1) + 1/log(1 + 2))
Ergebnis: 0,6241
- precision_at_5
-
Berechnung: 2/5
Ergebnis: 0,4000
Weitere Ressourcen
Informationen zur Evaluierung einer Lösungsversion mit A/B-Tests finden Sie unter Verwenden von A/B-Tests zur Messung der Wirksamkeit der von Amazon Personalize generierten Empfehlungen