So funktioniert Bildklassifikation - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So funktioniert Bildklassifikation

Der Bildklassifikationsalgorithmus nimmt ein Bild als Eingabe und klassifiziert es in eine der Ausgabekategorien. Deep Learning hat die Domäne der Bildklassifikation revolutioniert und großartige Leistungen erzielt. Verschiedene Deep Learning-Netzwerke, wie etwa ResNet [1], DenseNet, inception usw., wurden als hochpräzise Netzwerke für die Bildklassifikation entwickelt. Gleichzeitig wurden Anstrengungen zur Erfassung gekennzeichneter Bilddaten unternommen, die für das Training dieser Netzwerke von wesentlicher Bedeutung sind. ImageNet[2] ist ein solches großes Dataset, das über mehr als 11 Millionen Bilder mit über 11.000 Kategorien verfügt. Sobald ein Netzwerk mit trainiert wurde ImageNet Daten, kann es dann verwendet werden, um mit anderen Datasets zu verallgemeinern, durch einfache Neuanpassung oder Optimierung. In diesem Transferlernansatz wird ein Netzwerk mit Gewichtungen initialisiert (in diesem Beispiel mit ImageNet trainiert), was zu einem späteren Zeitpunkt für eine Bildklassifikationsaufgabe in einem anderen Dataset optimiert werden kann.

Bildklassifikation in Amazon SageMaker kann in zwei Modi ausgeführt werden: vollständiges Training und Transferlernen. Im vollständigen Trainingsmodus wird das Netzwerk mit zufälligen Gewichtungen initialisiert und mit Benutzerdaten von Grund auf neu trainiert. Im Transferlernmodus wird das Netzwerk mit vortrainierten Gewichtungen initialisiert und nur die oberste vollständig verbundene Schicht wird mit zufälligen Gewichtungen initialisiert. Dann wird das gesamte Netzwerk mit neuen Daten optimiert. In diesem Modus ist auch das Trainieren mit einem kleineren Datenset möglich. Der Grund hierfür ist, dass das Netzwerk bereits trainiert ist und deshalb in Situationen ohne ausreichende Trainingsdaten verwendet werden kann.