Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Überlegungen zur Generierung synthetischer Daten
Mit AWS Clean Rooms ML können Mitglieder der Kollaboration einen synthetischen Datensatz erstellen, der die Subjekte des ursprünglichen Datensatzes unwiderruflich aus ihren kollektiven Datensätzen anonymisiert, um ein benutzerdefiniertes Modell für maschinelles Lernen zu trainieren. Bei der Erstellung der Zusammenarbeit müssen Sie die Zahlungsinformationen so konfigurieren, dass angegeben wird, wer für die Generierung synthetischer Daten bezahlt. Im Folgenden finden Sie die wichtigsten Schritte zum Generieren eines synthetischen Datensatzes und zum Trainieren eines benutzerdefinierten Modells für maschinelles Lernen:
-
Ein Mitglied der Kollaboration erstellt eine Analysevorlage, die Folgendes beinhaltet:
-
Das SQL, das zur Definition des zu synthetisierenden Datensatzes benötigt wird.
-
Datenschutzbezogene Konfigurationen, die verwendet werden, um sicherzustellen, dass die synthetischen Daten den Compliance-Anforderungen der Datenanbieter entsprechen.
-
-
Sobald alle Datenanbieter die Analysevorlage genehmigt haben, erstellt der Collaboration Query Runner anhand der Vorlage einen Eingabekanal für maschinelles Lernen (ML).
-
Clean Rooms ML generiert den synthetischen Datensatz und überprüft, ob er die in der Analysevorlage angegebenen Datenschutzschwellen erfüllt.
-
Wenn alle Schwellenwerte erfüllt sind, wird der ML-Eingabekanal mit dem synthetischen Datensatz gefüllt.
-
Kunden können diesen ML-Eingangskanal dann verwenden, um das mit der Zusammenarbeit verknüpfte benutzerdefinierte ML-Modell zu trainieren.
Wichtige Überlegungen:
-
Bei synthetischen Daten, die in Clean Rooms ML generiert wurden, werden keine individuellen Werte entfernt, geschwärzt, verschleiert oder bereinigt, einschließlich personenbezogener Daten (PII), die im ursprünglichen Datensatz gefunden wurden. Der synthetische Datensatz wird generiert, indem Werte, aber nicht ganze Datensätze, aus dem ursprünglichen Datensatz entnommen werden.
-
Wenn der ursprüngliche Datensatz ähnliche Zeilen enthält, ist es möglich, dass die synthetischen Daten Zeilen enthalten, die identisch mit den Zeilen im ursprünglichen Datensatz aussehen.
Vorbereitung des Datensatzes:
-
Vermeiden Sie Spalten mit einer deutlich unausgewogenen Klassenverteilung. Dies ist besonders wichtig für den prognostizierten Wert oder die Spalte „Y“. Extreme Ungleichgewichte beeinträchtigen die allgemeine Privatsphäre des synthetischen Datensatzes.
-
Clean Rooms ML unterstützt nicht die Generierung synthetischer Daten aus Zeitreihendaten, bei denen es wichtig ist, die Korrelationen zwischen sequentiellen Datensätzen aufrechtzuerhalten.
-
Clean Rooms ML unterstützt nicht die Generierung synthetischer Daten aus Text oder unstrukturierten Daten.
-
Die folgenden Datentypen werden unterstützt:
Name des Datentyps BIGINT BOOLEAN CHAR DATE DECIMAL FLOAT INTEGER LONG REAL SHORT SMALLINT TIME TIMESTAMP_LTZ TIMESTAMP_NTZ TINYINT VARCHAR
Einschränkungen:
-
Bei der Generierung synthetischer Daten ist die maximale Anzahl prädiktiver Spalten eins.
-
Wenn die Zielspalte kategorisch ist, beträgt die maximale Anzahl von Kategorien im Originaldatensatz 100.
-
Im ursprünglichen Datensatz muss die Anzahl der Zeilen zwischen 1.500 und 2,5 Millionen liegen und die maximale Anzahl von Spalten beträgt 1.000. Für Werte ungleich Null in der Zielspalte beträgt die Mindestanzahl von Zeilen 1.000.
Kennzahlen zum Datenschutz:
-
Clean Rooms ML bietet einen Datenschutz-Score, der misst, wie geschützt die generierten synthetischen Daten vor Angriffen auf Mitgliedschaftsinformationen sind (MIAs). Der Dienst verwendet 5% der Originaldaten aus dem Syntheseprozess, um diesen Wert zu berechnen.
-
Werte von fast 50% werden als gut angesehen. Höhere Werte bedeuten weniger Schutz vor MIAs. Werte, die deutlich unter 50% liegen, sind selten und können darauf zurückzuführen sein, dass Muster aus den Originaldaten in den synthetisierten Daten nicht abgebildet sind.
Benutzerdefiniertes Downstream-Modell:
-
In Clean Rooms ML generierte synthetische Daten eignen sich am besten für das Training von binären Klassifikationsmodellen und Klassifikationsmodellen mit mehreren Klassen mit bis zu fünf Klassen.
-
Das Training von Regressionsmodellen mit synthetischen Daten, die in Clean Rooms ML generiert wurden, kann zu einer geringen Modellgenauigkeit führen, die anhand des Root Mean Square Error (RMSE) gemessen wird.