Ausgaben für Texteingaben Ausgaben für halbstrukturierte Eingabedokumente

Ausgaben für asynchrone Analysejobs

Nach Abschluss eines Analyseauftrags werden die Ergebnisse in dem S3-Bucket gespeichert, den Sie in der Anfrage angegeben haben.

Ausgaben für Texteingaben

Für jedes Format von Texteingabedokumenten (mehrere Klassen oder mehrere Etiketten) besteht die Jobausgabe aus einer einzigen Datei mit dem Namen. output.tar.gz Es handelt sich um eine komprimierte Archivdatei, die eine Textdatei mit der Ausgabe enthält.

Ausgabe mit mehreren Klassen

Wenn Sie einen Klassifikator verwenden, der im Mehrklassenmodus trainiert wurde, werden Ihre Ergebnisse angezeigt. classes Jede dieser Klassen classes wird verwendet, um beim Training Ihres Klassifikators eine Reihe von Kategorien zu erstellen.

Weitere Informationen zu diesen Ausgabefeldern finden Sie ClassifyDocumentin der Amazon Comprehend API-Referenz.

In den folgenden Beispielen werden die folgenden Klassen verwendet, die sich gegenseitig ausschließen.


DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER

Wenn Ihr Eingabedatenformat ein Dokument pro Zeile ist, enthält die Ausgabedatei eine Zeile für jede Zeile in der Eingabe. Jede Zeile enthält den Dateinamen, die auf Null basierende Zeilennummer der Eingabezeile und die Klasse oder Klassen, die im Dokument gefunden wurden. Es endet mit der Gewissheit, dass Amazon Comprehend davon überzeugt ist, dass die einzelne Instance korrekt klassifiziert wurde.

Zum Beispiel:


{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Wenn Ihr Eingabedatenformat ein Dokument pro Datei ist, enthält die Ausgabedatei eine Zeile für jedes Dokument. Jede Zeile enthält den Namen der Datei und die Klasse oder Klassen, die im Dokument gefunden wurden. Es endet mit der Gewissheit, dass Amazon Comprehend die einzelne Instanz korrekt klassifiziert hat.

Zum Beispiel:


{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}
{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Ausgabe mit mehreren Labels

Wenn Sie einen Klassifikator verwenden, der im Multi-Label-Modus trainiert wurde, werden Ihre Ergebnisse angezeigt. labels Jedes dieser Labels labels wird verwendet, um den Satz von Kategorien zu erstellen, wenn Sie Ihren Klassifikator trainieren.

In den folgenden Beispielen werden diese eindeutigen Bezeichnungen verwendet.


SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE

Zum Beispiel:


{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Zum Beispiel:


{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Ausgaben für halbstrukturierte Eingabedokumente

Bei halbstrukturierten Eingabedokumenten kann die Ausgabe die folgenden zusätzlichen Felder enthalten:

DocumentMetadata — Extraktionsinformationen über das Dokument. Die Metadaten enthalten eine Liste von Seiten im Dokument, wobei die Anzahl der Zeichen aus jeder Seite extrahiert wurde. Dieses Feld ist in der Antwort vorhanden, wenn die Anfrage den Byte Parameter enthielt.
DocumentType — Der Dokumenttyp für jede Seite im Eingabedokument. Dieses Feld ist in der Antwort vorhanden, wenn die Anfrage den Byte Parameter enthielt.
Fehler — Fehler auf Seitenebene, die das System bei der Verarbeitung des Eingabedokuments erkannt hat. Das Feld ist leer, wenn das System keine Fehler festgestellt hat.

Weitere Informationen zu diesen Ausgabefeldern finden Sie ClassifyDocumentin der Amazon Comprehend API-Referenz.

Das folgende Beispiel zeigt die Ausgabe für eine zweiseitige gescannte PDF-Datei.



[{ #First page output
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 1,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER"
},
#Second page output
{
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 2,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER" 
}]

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Analysejobs (API)

Benutzerdefinierte Entitätserkennung