Arbeiten mit Machine Learning-Transformationen in der AWS Glue-Konsole - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Arbeiten mit Machine Learning-Transformationen in der AWS Glue-Konsole

Sie könnenAWS Glue verwenden, um benutzerdefinierte Machine Learning-Transformationen zur Datenbereinigung zu erstellen. Diese Transformationen können Sie nutzen, wenn Sie einen Auftrag in der AWS Glue-Konsole anlegen.

Weitere Informationen zum Erstellen einer Machine Learning-Transformation finden Sie unter Abgleichen von Datensätzen mit AWS Lake Formation FindMatches.

Transformieren von Eigenschaften

Wenn Sie eine vorhandene Machine-Learning-Transformation anzeigen möchten, melden Sie sich an der AWS Management Console an und öffnen die AWS Glue-Konsole unter https://console.aws.amazon.com/glue/. Wählen Sie in der -Konsole im Navigationsbereich unter Datenintegration und ETL die Optionen Datenklassifizierungstools > Datensatzabgleich aus.

Die Eigenschaften für jede Transformation:

Namen der Transformation

Der eindeutige Name, den Sie der Transformation bei der Erstellung gegeben haben.

ID

Eine eindeutige Kennung der Transformation.

Label count (Anzahl der Beschriftungen)

Die Anzahl der Beschriftungen in der Labeling-Datei, die als Unterstützung beim Erstellen der Transformation zur Verfügung gestellt wurde.

Status

Gibt an, ob die Transformation den Status Ready (Bereit) oder Needs training (Benötigt Training) hat. Um eine Machine-Learning-Transformation in einem Auftrag erfolgreich ausführen zu können, muss sie den Status Ready (Bereit) haben.

Erstellt

Das Datum, an dem die Transformation erstellt wurde.

Geändert

Das Datum, an dem die Transformation zuletzt aktualisiert wurde.

Beschreibung

Die Beschreibung, die für die Transformation bereitgestellt wurde, sofern vorhanden.

AWS Glue-Version

Die verwendete AWS Glue-Version.

ID ausführen

Der eindeutige Name, den Sie der Transformation bei der Erstellung gegeben haben.

Aufgabentyp

Der Typ der Machine Learning-Transformation, z. B. Find matching records (Übereinstimmende Datensätze suchen).

Status

Zeigt den Status der Aufgabenausführung an. Zu den möglichen Status gehören:

  • Wird gestartet

  • In Ausführung

  • Wird angehalten

  • Angehalten

  • Erfolgreich

  • Fehlgeschlagen

  • Zeitüberschreitung

Fehler

Wenn der Status „Fehlgeschlagen“ lautet, wird eine Fehlermeldung mit einer Beschreibung der Ursache des Fehlers angezeigt.

Hinzufügen und Bearbeiten von Machine Learning-Transformationen

Sie können eine Transformation auf der AWS Glue-Konsole anzeigen, löschen, einrichten, trainieren oder optimieren. Wählen Sie das Kontrollkästchen neben der Transformation in der Liste aus, wählen Sie dann die OptionAktion und anschließend die Aktion, die Sie vornehmen möchten.

Erstellen einer neuen ML-Transformation

Um eine neue Machine-Learning-Transformation hinzuzufügen, wählen Sie Transformation erstellen. Folgen Sie den Anweisungen im Auftrag-hinzufügen-Assistenten. Weitere Informationen finden Sie unter Abgleichen von Datensätzen mit AWS Lake Formation FindMatches.

Schritt 1. Legen Sie Transformationseigenschaften fest.

  1. Geben Sie den Namen und die Beschreibung ein (optional).

  2. Optional können Sie die Sicherheitskonfiguration festlegen. Siehe Verwenden von Datenverschlüsselung mit Machine-Learning-Transformationen.

  3. Legen Sie optional Einstellungen für die Aufgabenausführung fest. Mithilfe den Einstellungen für die Aufgabenausführung können Sie die Ausführung der Aufgabe individuell anpassen. Wählen Sie den Worker-Typ, die Anzahl der Worker, das Aufgaben-Timeout (in Minuten), die Anzahl der Wiederholungsversuche und die AWS Glue-Version aus.

  4. Legen Sie optional Tags fest. Tags sind Bezeichnungen, die Sie einer AWS-Ressource zuweisen können. Jedes Tag besteht aus einem Schlüssel und einem optionalen Wert. Mithilfe von Tags können Sie Ihre Ressource durchsuchen und filtern oder Ihre AWS-Kosten verfolgen.

Schritt 2. Wählen Sie Tabelle und Primärschlüssel aus.

  1. Wählen Sie die AWS Glue-Katalogdatenbank und die Tabelle aus.

  2. Wählen Sie einen Primärschlüssel aus der ausgewählten Tabelle. Die Primärschlüsselspalte enthält normalerweise eine eindeutige Kennung für jeden Datensatz in der Datenquelle.

Schritt 3. Wählen Sie Optimierungsoptionen aus.

  1. Wählen Sie für Rückruf im Vergleich zu Präzision den Optimierungswert aus, um die Transformation so abzustimmen, dass Rückruf oder Präzision bevorzugt werden. Standardmäßig ist Ausgewogen ausgewählt. Sie können aber auch Rückruf oder Präzision bevorzugen oder Benutzerdefiniert auswählen und einen Wert zwischen 0,0 und 1,0 (einschließlich) eingeben.

  2. Wählen Sie für Geringere Kosten im Vergleich zu Genauigkeit den Optimierungswert aus, um niedrigere Kosten oder Genauigkeit zu begünstigen, oder wählen Sie Benutzerdefiniert und geben Sie einen Wert zwischen 0,0 und 1,0 (einschließlich) ein.

  3. Wählen Sie für Übereinstimmung erzwingen die Option Ausgabe zur Übereinstimmung mit Labels erzwingen, wenn Sie die ML-Transformation trainieren möchten, indem Sie die Ausgabe dazu erzwingen, mit den verwendeten Labels übereinzustimmen.

Schritt 4. Überprüfen und erstellen

  1. Überprüfen Sie die Optionen für die Schritte 1 bis 3.

  2. Wählen Sie Bearbeiten für jeden Schritt, der geändert werden muss. Wählen Sie Transformation erstellen, um den Assistenten zum Erstellen einer Transformation abzuschließen.

Verwenden von Datenverschlüsselung mit Machine-Learning-Transformationen

Wenn Sie eine Machine-Learning-Transformation zu AWS Glue hinzufügen, können Sie optional eine Sicherheitskonfiguration angeben, die der Datenquelle oder dem Datenziel zugeordnet ist. Wenn der Amazon-S3-Bucket, der zum Speichern der Daten verwendet wird, mit einer Sicherheitskonfiguration verschlüsselt ist, geben Sie beim Erstellen der Transformation dieselbe Sicherheitskonfiguration an.

Sie können auch die serverseitige Verschlüsselung mit AWS KMS (SSE-KMS) auswählen, um das Modell und die Etiketten zu verschlüsseln, um die Inspektion durch unbefugte Personen zu verhindern. Bei der Auswahl dieser Option werden Sie aufgefordert, das AWS KMS key nach Namen auszuwählen, oder Sie können Enter a key ARN (Einen Schlüssel-ARN eingeben) verwenden. Wenn Sie den ARN für den KMS-Schlüssel eingeben, wird ein zweites Feld angezeigt, in dem Sie den KMS-Schlüssel-ARN eingeben können.

Anmerkung

Derzeit werden ML-Transformationen, die einen benutzerdefinierten Verschlüsselungsschlüssel verwenden, in den folgenden Regionen nicht unterstützt:

  • Asien-Pazifik (Osaka) – ap-northeast-3

Anzeigen von Transformationsdetails

Transformationseigenschaften anzeigen

Die Seite Transformationseigenschaften enthält Attribute Ihrer Transformation. Es zeigt Ihnen die Details zur Transformationsdefinition, einschließlich der folgenden:

  • Transform name (Name der Transformation) zeigt den Namen der Transformation an.

  • Type (Typ) führt die Art der Transformation auf.

  • Status zeigt an, ob die Transformation bereit ist, in einem Skript verwendet zu werden.

  • Force output to match labels (Ausgabe zwingen, Kennzeichnungen zuzuweisen) zeigt an, ob die Transformation die Ausgabe zwingt, die vom Benutzer bereitgestellten Kennzeichnungen zuzuweisen.

  • Spark version (Spark-Version) bezieht sich auf die AWS Glue-Version, die Sie unter Task run properties (Eigenschaften für die Ausführung einer Aufgabe) beim Hinzufügen der Transformation ausgewählt haben. AWS Glue 1.0 und Spark 2.4 wird für die meisten Kunden empfohlen. Weitere Informationen finden Sie unter AWS Glue-Versionen.

Registerkarten „Verlauf“, „Qualität schätzen“ und „Tags“

Zu den Transformationsdetails gehören die Informationen, die Sie beim Erstellen der Transformation definiert haben. Um die Details einer Transformation anzuzeigen, wählen Sie die Transformation in der Liste Machine learning transforms (Machine Learning-Transformationen) aus und überprüfen Sie die Informationen auf den folgenden Registerkarten:

  • Verlauf

  • Schätzen der Qualität

  • Tags

Verlauf

Die Registerkarte History (Verlauf) zeigt den Ausführungsverlauf Ihrer Aufgabe an. Mehrere Arten von Aufgaben werden ausgeführt, um eine Transformation zu schulen. Für jede Aufgabe enthalten die Ausführungsmetriken Folgendes:

  • Run ID (Ausführungs-ID) ist ein von AWS Glue erstellter Bezeichner für jede Ausführung dieser Aufgabe.

  • Task-Type (Aufgabentyp) zeigt die Art der ausgeführten Aufgabe.

  • Status zeigt den Erfolg jeder aufgeführten Aufgabe an, wobei die neueste Aufgabe oben aufgeführt wird.

  • Error (Fehler) zeigt die Details einer Fehlermeldung an, wenn die Ausführung nicht erfolgreich war.

  • Start time (Startzeit) zeigt das Datum und die Uhrzeit (Ortszeit), an denen die Aufgabe gestartet wurde.

  • Endzeit zeigt das Datum und die Uhrzeit (Ortszeit), an denen die Aufgabe beendet wurde.

  • Logs (Protokolle) verlinkt sich mit den Protokollen, die für diese Auftragsausführung in stdout geschrieben wurden.

    Der Link Protokolle führt Sie zu Amazon CloudWatch Logs. Sie können die Details zu den in AWS Glue Data Catalog erstellten Tabellen anzeigen sowie alle aufgetretenen Fehler. Sie können Ihren Aufbewahrungszeitraum für Protokolle in der - CloudWatch Konsole verwalten. Der Standardaufbewahrungszeitraum für Protokolle ist Never Expire. Weitere Informationen zum Ändern des Aufbewahrungszeitraums finden Sie unter Ändern der Aufbewahrung von Protokolldaten in - CloudWatch Protokollen im Amazon- CloudWatch Logs-Benutzerhandbuch.

  • Die Label-Datei zeigt einen Link zu Amazon S3 für eine generierte Beschriftungsdatei.

Schätzen der Qualität

Die Registerkarte Estimate Quality (Qualität schätzen) zeigt die Metriken, die Sie verwenden, um die Qualität der Transformation zu messen. Die Schätzungen werden berechnet, indem die Prognosen für die Transformationsübereinstimmung unter Verwendung einer Teilmenge Ihrer gekennzeichneten Daten mit den von Ihnen angegebenen Kennzeichnungen verglichen werden. Diese Schätzungen sind ungefähre Angaben. Sie können die Ausführung der Aufgabe Estimate quality (Qualität schätzen) aus dieser Registerkarte aufrufen.

Die Registerkarte Estimate quality (Qualität schätzen) zeigt die Metriken der letzten Ausführung von Estimate quality (Qualität schätzen) mit den folgenden Eigenschaften:

  • Area under the Precision-Recall curve (Bereich unter der Präzisions-Sensitivitäts-Kurve) ist eine einzelne Zahl, die die obere Grenze der Gesamtqualität der Transformation schätzt. Sie ist unabhängig von der Wahl für den Präzisions-Sensitivitäts-Parameter. Höhere Werte weisen darauf hin, dass Sie einen attraktiveren Präzisions-Sensitivitäts-Trade-off haben.

  • Precision (Präzision) schätzt, wie oft die Transformation korrekt ist, wenn sie eine Übereinstimmung prognostiziert.

  • Recall upper limit (Obergrenze der Sensitivität) schätzt für eine tatsächliche Übereinstimmung, wie oft die Transformation die Übereinstimmung vorhersagt.

  • F1 gibt eine Schätzung der Genauigkeit der Transformation zwischen 0 und 1 an, wobei 1 die beste Genauigkeit ist. Weitere Informationen finden Sie unter F1 score in Wikipedia.

  • In der Tabelle Column importance (Bedeutung der Spalte) werden die Spaltennamen und die Bewertung für die Bedeutung jeder Spalte angezeigt. Anhand der Spaltenbedeutung können Sie verstehen, wie Spalten zu Ihrem Modell beitragen, indem Sie ermitteln, welche Spalten in Ihren Datensätzen am häufigsten für den Abgleich verwendet werden. Diese Daten können Sie dazu veranlassen, Ihr Labelset hinzuzufügen oder zu ändern, um die Bedeutung von Spalten zu erhöhen oder zu verringern.

    Die Spalte „Importance (Bedeutung)“ enthält eine numerische Bewertung für jede Spalte, da eine Dezimalzahl nicht größer als 1,0 ist.

Weitere Informationen zum Verständnis der Qualitätsschätzungen im Vergleich zur tatsächlichen Qualität finden Sie unter Qualitätsschätzungen im Vergleich zur end-to-end (wahren) Qualität.

Weitere Informationen zum Optimieren der Transformation finden Sie unter Optimieren von Machine Learning-Transformationen in AWS Glue.

Qualitätsschätzungen im Vergleich zur end-to-end (wahren) Qualität

AWS Glue schätzt die Qualität Ihrer Transformation, indem dem Machine-Learning-Modell eine Reihe von Datensatzpaaren präsentiert werden, für die Sie übereinstimmende Labels angegeben haben, die das Modell bisher jedoch nicht kannte. Diese Qualitätsschätzungen sind eine Qualitätsfunktion des Machine-Learning-Modells (abhängig von der Anzahl der Datensätze, die Sie für das Trainieren der Transformation gekennzeichnet haben). Der tatsächliche Erinnerungswert end-to-end, oder (der nicht automatisch von berechnet wirdML transform) wird auch vom ML transform Filtermechanismus beeinflusst, der dem maschinell erlernten Modell eine Vielzahl möglicher Übereinstimmungen vorschlägt.

Sie können diese Filtermethode hauptsächlich durch Angabe des Optimierungswerts Niedrigere Kostengenauigkeit optimieren. Wenn sich der Optimierungswert der Genauigkeit annähert, führt das System eine gründlichere und aufwändigere Suche nach möglicherweise übereinstimmenden Datensatzpaaren durch. Weitere Paare von Datensätzen werden Ihrem maschinell erlernten Modell zugeführt, und der oder die tatsächliche Erinnerung Ihres nähert sich der geschätzten ML transformErinnerungs end-to-endmetrik. Infolgedessen werden Änderungen der end-to-end Qualität Ihrer Übereinstimmungen aufgrund von Änderungen des Kosten-/Genauigkeitsnachteils für Ihre Übereinstimmungen in der Regel nicht in der Qualitätsschätzung berücksichtigt.

Tags

Tags sind Bezeichnungen, die Sie einer AWS-Ressource zuweisen können. Jedes Tag besteht aus einem Schlüssel und einem optionalen Wert. Mithilfe von Tags können Sie Ihre Ressource durchsuchen und filtern oder Ihre AWS-Kosten verfolgen.

Transformationen mithilfe von Labels beibringen

Sie können Ihrer ML-Transformation mithilfe von Beschriftungen (Beispiele) beibringen, indem Sie auf der Detailseite der ML-Transformation die Option Transformation beibringen auswählen. Wenn Sie Ihrem Machine-Learning-Algorithmus Beispiele (sogenannte Labels) beibringen, können Sie vorhandene Labels zur Verwendung auswählen oder eine Labeldatei erstellen.


                Der Screenshot zeigt einen Assistenten zum Einlernen der Transformation mithilfe von Labels.
  • Beschriftung – Wenn Sie über Labels verfügen, wählen Sie Ich habe Labels. Wenn Sie keine Labels haben, können Sie trotzdem mit dem nächsten Schritt fortfahren, um eine Label-Datei zu generieren.

  • Label-Datei generieren – AWS Glue extrahiert Datensätze aus Ihren Quelldaten und schlägt potenziell passende Datensätze vor. Sie wählen den Amazon-S3-Bucket aus, in dem die generierte Label-Datei gespeichert werden soll. Wählen Sie Label-Datei generieren, um den Vorgang zu starten. Wenn Sie fertig sind, wählen Sie Label-Datei herunterladen. Die heruntergeladene Datei enthält eine Spalte für Labels, in die Sie die Labels eintragen können.

  • Labels aus Amazon S3 hochladen – Wählen Sie die fertige Label-Datei aus dem Amazon-S3-Bucket aus, in dem die Label-Datei gespeichert ist. Wählen Sie dann aus, ob Sie die Labels an Ihre vorhandenen Labels anfügen oder Ihre vorhandenen Labels überschreiben möchten. Wählen Sie Label-Datei aus Amazon S3 hochladen aus.