Analysieren und Visualisieren - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Analysieren und Visualisieren

Amazon SageMaker Data Wrangler enthält integrierte Analysen, mit denen Sie Visualisierungen und Datenanalysen mit wenigen Klicks generieren können. Sie können auch benutzerdefinierte Analysen mit Ihrem eigenen Code erstellen.

Sie fügen einem Datenrahmen eine Analyse hinzu, indem Sie einen Schritt in Ihrem Datenfluss auswählen und dannHinzufügen von Analysisaus. Um auf eine von Ihnen erstellte Analyse zuzugreifen, wählen Sie den Schritt aus, der die Analyse enthält, und wählen Sie die Analyse aus.

Alle Analysen werden mit 100.000 Zeilen Ihres Datensatzes generiert.

Sie können die folgende Analyse zu einem Datenrahmen hinzufügen:

  • Datenvisualisierungen, einschließlich Histogramme und Scatterplots.

  • Eine kurze Zusammenfassung Ihres Datensatzes, einschließlich der Anzahl von Einträgen, Mindest- und Höchstwerten (für numerische Daten) sowie die meisten und am wenigsten häufigsten Kategorien (für kategoriale Daten).

  • Ein schnelles Modell des Datensatzes, mit dem für jedes Feature ein Wichtigkeitsergebnis generiert werden kann.

  • Ein Zielleckage-Bericht, mit dem Sie feststellen können, ob eine oder mehrere Funktionen stark mit Ihrer Zielfunktion korreliert sind.

  • Eine benutzerdefinierte Visualisierung mit Ihrem eigenen Code.

In den folgenden Abschnitten erfahren Sie mehr über diese Optionen.

Histogramm

Verwenden Sie Histogramme, um die Anzahl der Feature-Werte für ein bestimmtes Feature anzuzeigen. Sie können die Beziehungen zwischen Features mit demColor vonOption. Das folgende Histogramm zeigt beispielsweise die Verteilung der Benutzerbewertungen der meistverkauften Bücher bei Amazon von 2009—2019, farbig nach Genre.

Sie können dasFacet vonFeature zum Erstellen von Histogrammen einer Spalte für jeden Wert in einer anderen Spalte. Das folgende Diagramm zeigt beispielsweise Histogramme von Nutzerbewertungen von meistverkauften Büchern bei Amazon, wenn sie nach Jahr facettiert werden.

Streudiagramm

Verwenden derStreudiagrammFunktion, um die Beziehung zwischen Features zu untersuchen. Um ein Streudiagramm zu erstellen, wählen Sie ein Feature aus, das auf derX-Achseund dieY-Achseaus. Beide Spalten müssen numerisch typisierte Spalten sein.

Sie können Streuplots nach einer zusätzlichen Spalte färben. Das folgende Beispiel zeigt beispielsweise ein Streudiagramm, in dem die Anzahl der Bewertungen mit den Benutzerbewertungen von meistverkauften Büchern bei Amazon zwischen 2009 und 2019 verglichen wird. Die Streuhandlung ist nach Buchgenre gefärbt.

Darüber hinaus können Sie Plots nach Features facettieren. Die folgende Abbildung zeigt beispielsweise ein Beispiel für das gleiche Streudiagramm zur Bewertung gegenüber der Benutzerbewertung, facettiert nach Jahr.

Übersicht über die Tabelle

Verwenden derÜbersicht über die Tabelle-Analyse, um Ihre Daten schnell zusammenzufassen.

Für Spalten mit numerischen Daten, einschließlich Log- und Float-Daten, gibt eine Tabellenzusammenfassung die Anzahl der Einträge (Anzahl), Minimum (min), Maximum (max), Mittelwert und Standardabweichung (stddev) für jede Spalte an.

Für Spalten mit nicht numerischen Daten, einschließlich Spalten mit String-, Booleschen oder Datums-/Uhrzeitdaten, gibt eine Tabellenzusammenfassung die Anzahl der Einträge (Anzahl), den kleinsten Wert (min) und den häufigsten Wert (max) an.

Schnelles Modell

Verwenden derSchnelles ModellVisualisierung, um Ihre Daten schnell auszuwerten und für jedes Feature Wichtigkeitsergebnisse zu erzielen. EINFeature-Wichtigkeitsbewertungscore gibt an, wie nützlich eine Funktion bei der Vorhersage einer Zielbezeichnung ist. Der Feature-Wichtigkeitswert liegt zwischen [0, 1] und eine höhere Zahl zeigt an, dass das Feature für den gesamten Datensatz wichtiger ist. Oben in der Schnellmodellkarte befindet sich ein Modellscore. Ein Klassifikationsproblem zeigt einen F1-Wert. Ein Regressionsproblem hat einen mittleren quadrierten Fehler (MSE) -Score.

Wenn Sie ein Schnellmodelldiagramm erstellen, wählen Sie ein Dataset aus, das ausgewertet werden soll, und eine Zielbezeichnung, mit der die Feature-Wichtigkeit verglichen werden soll. Data Wrangler führt Folgendes aus:

  • Reicht die Datentypen für die Zielbezeichnung und jedes Feature im ausgewählten Dataset ab.

  • Bestimmt den Problemtyp. Basierend auf der Anzahl der eindeutigen Werte in der Labelspalte bestimmt Data Wrangler, ob es sich um einen Regressions- oder Klassifikationsproblematik handelt. Data Wrangler legt einen kategorialen Schwellenwert auf 100 fest. Wenn die Labelspalte mehr als 100 verschiedene Werte enthält, klassifiziert Data Wrangler es als Regressionsproblem, andernfalls wird es als Klassifizierungsproblem eingestuft.

  • Verarbeitet Funktionen und Kennzeichnungsdaten für das Training vor. Der verwendete Algorithmus erfordert Kodierungsfunktionen zum Vektortyp und Codieren von Beschriftungen zum Doppeltyp.

  • Trainiert einen zufälligen Waldalgorithmus mit 70% der Daten. SparkRandomForestRegressorwird verwendet, um ein Modell für Regressionsprobleme zu trainieren. DieRandomForestClassifierwird verwendet, um ein Modell für Klassifikationsprobleme zu trainieren.

  • Wertet ein Zufallsstrukturmodell mit den verbleibenden 30% der Daten aus. Data Wrangler wertet Klassifikationsmodelle mit einem F1-Ergebnis aus und wertet Regressionsmodelle mit einem MSE-Score aus.

  • Berechnet die Bedeutung der Funktion für jedes Feature mit der Gini-Wichtigkeits-Methode.

Die folgende Abbildung zeigt die Benutzeroberfläche für das Quick Model Feature.

Ziel-Leckage

Zielverlust tritt auf, wenn sich Daten in einem Dataset für maschinelles Lernen befinden, die stark mit dem Ziellabel korreliert, aber in realen Daten nicht verfügbar sind. Beispielsweise haben Sie möglicherweise eine Spalte in Ihrem Dataset, die als Proxy für die Spalte dient, die Sie mit Ihrem Modell vorhersagen möchten.

Wenn Sie denZiel-Leckage-Analyse geben Sie Folgendes an:

  • Ziel: Dies ist die Funktion, über die Ihr ML-Modell Vorhersagen treffen kann.

  • Problemtyp: Dies ist der ML-Problemtyp, an dem Sie arbeiten. Problemtyp kann entweder seinEinstufungoderRegressionaus.

  • (Optional)Max-Funktionen: Dies ist die maximale Anzahl von Funktionen, die in der Visualisierung vorhanden sind, die Merkmale zeigt, die nach ihrem Risiko eines Ziellecks eingestuft sind.

Für die Klassifizierung verwendet die Zielleckage-Analyse den Bereich unter der Betriebskennlinie des Empfängers oder AUC - ROC-Kurve für jede Spalte bis zuMax-Funktionenaus. Für die Regression verwendet es einen Bestimmungskoeffizienten oder eine R2-Metrik.

Die AUC - ROC-Kurve bietet eine vorausschauende Metrik, die individuell für jede Spalte mittels Kreuzvalidierung berechnet wird, für eine Stichprobe von bis zu rund 1000 Zeilen. Eine Punktzahl von 1 zeigt perfekte Vorhersagefähigkeiten an, was oft auf eine Zielleckage hinweist. Eine Punktzahl von 0,5 oder niedriger zeigt an, dass die Informationen in der Spalte allein keine nützlichen Informationen zur Vorhersage des Ziels liefern konnten. Obwohl es vorkommen kann, dass eine Spalte allein nicht informativ ist, aber nützlich ist, um das Ziel vorherzusagen, wenn sie zusammen mit anderen Funktionen verwendet wird, könnte ein niedriger Punktestand darauf hinweisen, dass das Feature redundant ist.

Das folgende Bild zeigt beispielsweise einen Zielleckagebericht für ein Diabetes-Klassifikationsproblem, dh vorherzusagen, ob eine Person Diabetes hat oder nicht. Eine AUC - ROC-Kurve wird verwendet, um die Vorhersagefähigkeit von fünf Features zu berechnen, und alle sind als sicher vor Ziellecks.

Erkennen von Anomalien in Zeitreihendaten

Sie können die Visualisierung der Anomalieerkennung verwenden, um Ausreißer in Ihren Zeitreihendaten anzuzeigen. Um zu verstehen, was eine Anomalie bestimmt, müssen Sie verstehen, dass wir die Zeitreihe in einen vorhergesagten Begriff und einen Fehlerbegriff zerlegen. Wir behandeln die Saisonalität und den Trend der Zeitreihe als vorhergesagten Begriff. Wir behandeln die Residuen als Fehlerbegriff.

Für den Fehlerbegriff geben Sie einen Schwellenwert an, da die Anzahl der Abweichungsstandards, die das Residuum von dem Mittelwert entfernt sein kann, damit er als Anomalie angesehen wird. Sie können beispielsweise einen Schwellenwert als 3 Standardabweichungen angeben. Jeder Rest, der größer als 3 Standardabweichungen vom Mittelwert ist, ist eine Anomalie.

Sie können den folgenden Vorgang verwenden, um eineAnomalieerkennungAnalysis.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. In Ihrem Datenfluss unterDatentypen, wähle das+, und wählen SieHinzufügen von Analysisaus.

  3. FürAnalysetyp, wählenZeitreihenaus.

  4. FürVisualisierung, wählenAnomalieerkennungaus.

  5. FürAnomalieschwellenwert, wählen Sie den Schwellenwert, dass ein Wert als Anomalie angesehen wird.

  6. Klicken Sie auf-Vorschauum eine Vorschau der Analyse zu generieren.

  7. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Saisonale Trendzersetzung in Zeitreihendaten

Mithilfe der Visualisierung der saisonalen Trendzersetzung können Sie feststellen, ob Ihre Zeitreihendaten Saisonalität aufweisen. Wir verwenden die STL-Methode (Saisonale Trendzersetzung mit LOESS), um die Zersetzung durchzuführen. Wir zerlegen die Zeitreihen in ihre Saison-, Trend- und Restkomponenten. Der Trend spiegelt den langfristigen Fortschritt der Serie wider. Die saisonale Komponente ist ein Signal, das in einem Zeitraum wiederkehrt. Nachdem Sie den Trend und die saisonalen Komponenten aus der Zeitreihe entfernt haben, haben Sie den Rest.

Sie können den folgenden Vorgang verwenden, um eineAbbau des Saison-TrendsAnalysis.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. In Ihrem Datenfluss unterDatentypen, wähle das+, und wählen SieHinzufügen von Analysisaus.

  3. FürAnalysetyp, wählenZeitreihenaus.

  4. FürVisualisierung, wählenAbbau des Saison-Trendsaus.

  5. FürAnomalieschwellenwert, wählen Sie den Schwellenwert, dass ein Wert als Anomalie angesehen wird.

  6. Klicken Sie auf-Vorschauum eine Vorschau der Analyse zu generieren.

  7. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Bias-Bericht

Sie können den Bias-Bericht in Data Wrangler verwenden, um potenzielle Verzerrungen in Ihren Daten aufzudecken. Um einen Bias-Bericht zu generieren, müssen Sie die Zielspalte angeben oderBezeichnung, die Sie voraussagen möchten und eineFacetoder die Spalte, die Sie auf Vorurteile prüfen möchten.

Bezeichnung: Die Funktion, über die ein Modell Vorhersagen treffen soll. Wenn Sie beispielsweise eine Kundenkonvertierung vorhersagen, können Sie eine Spalte auswählen, die Daten darüber enthält, ob ein Kunde eine Bestellung aufgegeben hat oder nicht. Sie müssen auch angeben, ob es sich bei diesem Feature um eine Beschriftung oder einen Schwellenwert handelt. Wenn Sie eine Beschriftung angeben, müssen Sie angeben, was fürpositives Ergebnissieht aus wie in deinen Daten. Im Beispiel der Kundenumwandlung kann ein positives Ergebnis eine 1 in der Spalte Bestellungen sein, was das positive Ergebnis eines Kunden darstellt, der innerhalb der letzten drei Monate eine Bestellung aufgibt. Wenn Sie einen Schwellenwert angeben, müssen Sie eine Untergrenze angeben, die ein positives Ergebnis definiert. Wenn Ihre Kundenbestellungen beispielsweise die Anzahl der Bestellungen enthalten, die im letzten Jahr aufgegeben wurden, möchten Sie möglicherweise 1 angeben.

Facet: Die Spalte, die Sie auf Vorurteile prüfen möchten. Wenn Sie beispielsweise versuchen, die Kundenkonvertierung vorherzusagen, kann Ihre Facette das Alter des Kunden sein. Sie können diese Facette wählen, weil Sie glauben, dass Ihre Daten auf eine bestimmte Altersgruppe ausgerichtet sind. Sie müssen angeben, ob die Facette als Wert oder Schwellenwert gemessen wird. Wenn Sie beispielsweise ein oder mehrere bestimmte Altersgruppen untersuchen möchten, wählen SieValueund geben Sie diese Altersgruppen an. Wenn Sie sich eine Altersgruppe ansehen möchten, wählen SieSchwellenwertund geben Sie die Altersschwelle an, die Sie überprüfen möchten.

Nachdem Sie Ihr Feature und Ihre Beschriftung ausgewählt haben, wählen Sie die Typen von Bias-Metriken aus, die Sie berechnen möchten.

Weitere Informationen hierzu finden Sie unterGenerieren Sie Berichte für Voreingenommenheit in Daten vor dem Trainingaus.

Erstellen von benutzerdefinierten Visualisierungen

Sie können Ihrem Data Wrangler-Flow eine Analyse hinzufügen, um eine benutzerdefinierte Visualisierung zu erstellen. Ihr Datensatz mit allen Transformationen, die Sie angewendet haben, ist alsPandas DataFrameaus. Data Wrangler benutzt dasdf-Variable zum Speichern des Datenrahmens. Sie greifen auf den Datenrahmen zu, indem Sie die Variable aufrufen.

Sie müssen die Ausgabevariable angeben,chart, um ein zu lagernAltairAusgabediagramm Sie können beispielsweise den folgenden Code-Block verwenden, um mit dem Titanic-Dataset ein benutzerdefiniertes Histogramm zu erstellen.

import altair as alt df = df.iloc[:30] df = df.rename(columns={"Age": "value"}) df = df.assign(count=df.groupby('value').value.transform('count')) df = df[["value", "count"]] base = alt.Chart(df) bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count')) rule = base.mark_rule(color='red').encode( x='mean(value):Q', size=alt.value(5)) chart = bar + rule

So erstellen Sie eine benutzerdefinierte Visualisierung:

  1. Wählen Sie neben dem Knoten, der die Transformation enthält, die Sie visualisieren möchten,+aus.

  2. Klicken Sie aufHinzufügen von Analysisaus.

  3. FürAnalysetyp, wählenBenutzerdefinierte Visualisierungaus.

  4. FürAnalysnameGeben Sie einen Namen an.

  5. Geben Sie Ihren Code in das Codefeld ein.

  6. Klicken Sie auf-Vorschauum eine Vorschau Ihrer Visualisierung anzuzeigen.

  7. Klicken Sie aufSaveum Ihre Visualisierung hinzuzufügen.