Bewährte Methoden für Amazon Textract - Amazon Textract

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bewährte Methoden für Amazon Textract

Amazon Textract verwendet maschinelles Lernen, um Dokumente wie eine Person zu lesen. Es extrahiert Text, Tabellen und Formulare aus Dokumenten. Verwenden Sie die folgenden bewährten Methoden, um optimale Ergebnisse aus Ihren Dokumenten zu erstellen.

Bereitstellen eines optimalen Eingabedokuments

Im Folgenden finden Sie eine Liste mit einigen Möglichkeiten, wie Sie Ihre Eingabedokumente für bessere Ergebnisse optimieren können.

  • Stellen Sie sicher, dass Ihr Dokumenttext in einer Sprache vorliegt, die Amazon Textract unterstützt. Derzeit unterstützt Amazon Textract Englisch, Spanisch, Deutsch, Italienisch, Französisch und Portugiesisch.

  • Stellen Sie ein Bild in hoher Qualität bereit, idealerweise mindestens 150 DPI.

  • Wenn sich Ihr Dokument bereits in einem der Dateiformate befindet, die Amazon Textract unterstützt (PDF, TIFF, JPEG und PNG), konvertieren oder stauen Sie das Dokument nicht herunter, bevor Sie es auf Amazon Textract hochladen.

Um die besten Ergebnisse beim Extrahieren von Text aus Tabellen in Dokumenten zu erzielen, stellen Sie sicher, dass:

  • Tabellen in Ihrem Dokument sind visuell von den umgebenden Elementen auf der Seite getrennt. Zum Beispiel wird die Tabelle nicht auf ein Bild oder ein komplexes Muster überlagert.

  • Der Text innerhalb der Tabelle ist aufrecht. Zum Beispiel wird der Text nicht relativ zu anderem Text auf der Seite gedreht.

Wenn Sie Text aus Tabellen extrahieren, werden möglicherweise inkonsistente Ergebnisse angezeigt, wenn:

  • Zusammengeführte Tabellenzellen, die sich über mehrere Spalten erstrecken.

  • Tabellen mit Zellen, Zeilen oder Spalten, die sich von anderen Teilen derselben Tabelle unterscheiden.

Wir empfehlen die Verwendung vonTexterkennungals Behelfslösung.

Verwenden von Zuverläsdigkeitswert

Sie sollten die Konfidenzwerte berücksichtigen, die von Amazon Textract Textract-API-Vorgängen zurückgegeben werden, und die Sensibilität ihres Anwendungsfalls. Der Zuverläsdigkeitswert ist eine Zahl zwischen 0 und 100, mit der die Wahrscheinlichkeit angegeben wird, dass eine gegebene Vorhersage korrekt ist. Es hilft Ihnen, fundierte Entscheidungen darüber zu treffen, wie Sie die Ergebnisse verwenden.

Erzwingen Sie in Anwendungen, die empfindlich auf Erkennungsfehler reagieren (falsch positiv), einen Schwellenwert für den Mindestkonfidenzwert. Die Anwendung sollte Ergebnisse unterhalb dieses Schwellenwerts verwerfen oder Situationen kennzeichnen, die ein höheres Maß an menschlicher Kontrolle erfordern.

Der optimale Schwellenwert hängt von der Anwendung ab. Für Archivierungszwecke, z. B. das Dokumentieren handschriftlicher Notizen, kann es bis zu 50% betragen. Geschäftsprozesse mit finanziellen Entscheidungen können Schwellenwerte von 90% oder höher erfordern.

Erwägen Sie die Verwendung von

Erwägen Sie auch, menschliche Überprüfung in Ihre Workflows einzubeziehen. Dies ist besonders wichtig für sensible Anwendungen wie Geschäftsprozesse, die finanzielle Entscheidungen beinhalten.