Format der Datensätze und objektive Metrik für die Textklassifizierung

In diesem Abschnitt erfahren Sie mehr über die verfügbaren Formate für Datensätze, die bei der Textklassifizierung verwendet werden, sowie über die Metrik, die zur Bewertung der Vorhersagequalität von Modellkandidaten für Machine Learning verwendet wird. Die für Kandidaten berechneten Metriken werden anhand einer Reihe von MetricDatumTypen spezifiziert.

Formate für Datensätze

Autopilot unterstützt tabellarische Daten, die als CSV-Dateien oder als Parquet-Dateien formatiert sind. Bei tabellarischen Daten enthält jede Spalte ein Feature mit einem bestimmten Datentyp und jede Zeile enthält eine Beobachtung. Die Eigenschaften dieser beiden Dateiformate unterscheiden sich erheblich.

CSV (comma-separated-values) ist ein zeilenbasiertes Dateiformat, das Daten in für Menschen lesbarem Klartext speichert. Dies ist eine beliebte Wahl für den Datenaustausch, da sie von einer Vielzahl von Anwendungen unterstützt werden.
Parquet ist ein Dateiformat auf Spaltenbasis, bei dem die Daten effizienter gespeichert und verarbeitet werden als bei einem Dateiformat auf Zeilenbasis. Dies macht sie zu einer besseren Option für Big-Data-Probleme.

Zu den für Spalten akzeptierten Datentypen gehören numerische, kategoriale und Textdaten.

Autopilot unterstützt die Erstellung von Modellen für maschinelles Lernen auf großen Datensätzen von bis zu Hunderten von. GBs Einzelheiten zu den Standard-Ressourcenlimits für Eingabe-Datasets und deren Erhöhung finden Sie unter Amazon SageMaker Autopilot-Kontingente.

Zielmetrik

Die folgende Liste enthält die Namen der Metriken, die derzeit zur Messung der Leistung von Modellen für die Textklassifizierung verfügbar sind.

Accuracy: Das Verhältnis der Anzahl korrekt klassifizierter Elemente zur Gesamtzahl der (richtig und falsch) klassifizierten Elemente. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Ein Wert von 1 steht für perfekte Genauigkeit und 0 für perfekte Ungenauigkeit.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erstellen Sie einen Textklassifizierungsjob mit der AutoML-API

Stellen Sie Autopilot-Modelle zur Vorhersage bereit