Format der Datensätze und objektive Metrik für die Textklassifizierung - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Format der Datensätze und objektive Metrik für die Textklassifizierung

In diesem Abschnitt erfahren Sie mehr über die verfügbaren Formate für Datensätze, die bei der Textklassifizierung verwendet werden, sowie über die Metrik, die zur Bewertung der Vorhersagequalität von Modellkandidaten für Machine Learning verwendet wird. Die für Kandidaten berechneten Metriken werden anhand einer Reihe von MetricDatumTypen spezifiziert.

Formate für Datensätze

Autopilot unterstützt tabellarische Daten, die als CSV-Dateien oder als Parquet-Dateien formatiert sind. Bei tabellarischen Daten enthält jede Spalte ein Feature mit einem bestimmten Datentyp und jede Zeile enthält eine Beobachtung. Die Eigenschaften dieser beiden Dateiformate unterscheiden sich erheblich.

  • CSV (comma-separated-values) ist ein zeilenbasiertes Dateiformat, das Daten in für Menschen lesbarem Klartext speichert. Dies ist eine beliebte Wahl für den Datenaustausch, da sie von einer Vielzahl von Anwendungen unterstützt werden.

  • Parquet ist ein Dateiformat auf Spaltenbasis, bei dem die Daten effizienter gespeichert und verarbeitet werden als bei einem Dateiformat auf Zeilenbasis. Dies macht sie zu einer besseren Option für Big-Data-Probleme.

Zu den für Spalten akzeptierten Datentypen gehören numerische, kategoriale und Textdaten.

Autopilot unterstützt die Erstellung von Modellen für Machine Learning auf großen Datensätzen von bis zu Hunderten von GB. Einzelheiten zu den Standard-Ressourcenlimits für Eingabe-Datasets und deren Erhöhung finden Sie unter Amazon SageMaker Autopilot-Kontingente.

Zielmetrik

Die folgende Liste enthält die Namen der Metriken, die derzeit zur Messung der Leistung von Modellen für die Textklassifizierung verfügbar sind.

Accuracy

Das Verhältnis der Anzahl korrekt klassifizierter Elemente zur Gesamtzahl der (richtig und falsch) klassifizierten Elemente. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Ein Wert von 1 steht für perfekte Genauigkeit und 0 für perfekte Ungenauigkeit.