Unter Verwendung der AWS CLI Verwenden des -SDK für Java Verwenden des Python-SDK API-Aktionen für PDF-Dateien überschreiben

Einen benutzerdefinierten Entitätserkennungsjob (API) starten

Sie können die API verwenden, um einen asynchronen Analysejob für die benutzerdefinierte Entitätserkennung zu starten und zu überwachen.

Um einen benutzerdefinierten Entitätserkennungsjob mit dem StartEntitiesDetectionJobVorgang zu starten, geben Sie den EntityRecognizerArn, der Amazon-Ressourcenname (ARN) des trainierten Modells ist, an. Sie finden diesen ARN in der Antwort auf die CreateEntityRecognizerOperation.

Themen

Erkennung benutzerdefinierter Entitäten mit dem AWS Command Line Interface
Erkennung benutzerdefinierter Entitäten mithilfe der AWS SDK für Java
Erkennung benutzerdefinierter Entitäten mit dem AWS SDK für Python (Boto3)
API-Aktionen für PDF-Dateien überschreiben

Erkennung benutzerdefinierter Entitäten mit dem AWS Command Line Interface

Verwenden Sie das folgende Beispiel für Unix-, Linux- und MacOS-Umgebungen. Ersetzen Sie unter Windows den umgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende jeder Zeile durch ein Caret-Zeichen oder Zirkumflex (^). Verwenden Sie die folgende Anforderungssyntax, um benutzerdefinierte Entitäten in einer Dokumentenmappe zu erkennen:


aws comprehend start-entities-detection-job \
     --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \
     --job-name infer-1 \
     --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \
     --language-code en \
     --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \
     --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \
     --region region

Amazon Comprehend antwortet mit JobID und JobStatus und gibt die Ausgabe des Jobs im S3-Bucket zurück, den Sie in der Anfrage angegeben haben.

Erkennung benutzerdefinierter Entitäten mithilfe der AWS SDK für Java

Beispiele für Amazon Comprehend, die Java verwenden, finden Sie unter Amazon Comprehend Java-Beispiele.

Erkennung benutzerdefinierter Entitäten mit dem AWS SDK für Python (Boto3)

In diesem Beispiel wird ein benutzerdefinierter Entitätserkennungsdienst erstellt, das Modell trainiert und es anschließend in einem Entitätserkennungsauftrag mit dem ausgeführt. AWS SDK für Python (Boto3)

Instanziieren Sie das SDK für Python.


import boto3
import uuid
comprehend = boto3.client("comprehend", region_name="region")

Erstellen Sie einen Entitätserkenner:


response = comprehend.create_entity_recognizer(
    RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "EntityTypes": [
            {
                "Type": "ENTITY_TYPE"
            }
        ],
        "Documents": {
            "S3Uri": "s3://Bucket Name/Bucket Path/documents"
        },
        "Annotations": {
            "S3Uri": "s3://Bucket Name/Bucket Path/annotations"
        }
    }
)
recognizer_arn = response["EntityRecognizerArn"]

Alle Erkennungsprogramme auflisten:


response = comprehend.list_entity_recognizers()

Warten Sie, bis der Entity Recognizer den Status TRAINIERT erreicht hat:


while True:
    response = comprehend.describe_entity_recognizer(
        EntityRecognizerArn=recognizer_arn
    )

    status = response["EntityRecognizerProperties"]["Status"]
    if "IN_ERROR" == status:
        sys.exit(1)
    if "TRAINED" == status:
        break

    time.sleep(10)

Starten Sie einen Job zur Erkennung benutzerdefinierter Entitäten:


response = comprehend.start_entities_detection_job(
    EntityRecognizerArn=recognizer_arn,
    JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "InputFormat": "ONE_DOC_PER_LINE",
        "S3Uri": "s3://Bucket Name/Bucket Path/documents"
    },
    OutputDataConfig={
        "S3Uri": "s3://Bucket Name/Bucket Path/output"
    }
)

API-Aktionen für PDF-Dateien überschreiben

Für Bilddateien und PDF-Dateien können Sie die standardmäßigen Extraktionsaktionen mithilfe des DocumentReaderConfig Parameters in InputDataConfig überschreiben.

Das folgende Beispiel definiert eine JSON-Datei mit dem Namen myInputData config.JSON, um die InputDataConfig Werte festzulegen. Es legt festDocumentReadConfig, dass die Amazon Textract DetectDocumentText Textract-API für alle PDF-Dateien verwendet wird.


"InputDataConfig": {
  "S3Uri": s3://Bucket Name/Bucket Path",
  "InputFormat": "ONE_DOC_PER_FILE",
  "DocumentReaderConfig": {
      "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT",
      "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION"
  }
}

Geben Sie im StartEntitiesDetectionJob Vorgang die Datei myInputData config.json als Parameter an: InputDataConfig


  --input-data-config file://myInputDataConfig.json

Weitere Informationen zu den DocumentReaderConfig Parametern finden Sie unter. Optionen für die Textextraktion festlegen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Analyseaufträge (Konsole)

Ausgaben für Analysejobs