Starten eines benutzerdefinierten Entitätserkennungsauftrags (API) - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Starten eines benutzerdefinierten Entitätserkennungsauftrags (API)

Sie können die -API verwenden, um einen asynchronen Analyseauftrag für die Erkennung benutzerdefinierter Entitäten zu starten und zu überwachen.

Um einen benutzerdefinierten Entitätserkennungsauftrag mit der -StartEntitiesDetectionJobOperation zu starten, geben Sie den EntityRecognizerArnAmazon-Ressourcennamen (ARN) des trainierten Modells an. Sie finden diesen ARN in der Antwort auf die -CreateEntityRecognizerOperation.

Erkennen von benutzerdefinierten Entitäten mithilfe der AWS Command Line Interface

Verwenden Sie das folgende Beispiel für Unix-, Linux- und macOS-Umgebungen. Ersetzen Sie unter Windows den umgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende jeder Zeile durch ein Caret-Zeichen oder Zirkumflex (^). Verwenden Sie die folgende Anforderungssyntax, um benutzerdefinierte Entitäten in einem Dokumentsatz zu erkennen:

aws comprehend start-entities-detection-job \ --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \ --job-name infer-1 \ --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \ --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \ --region region

Amazon Comprehend antwortet mit und JobID JobStatus und gibt die Ausgabe des Auftrags in dem S3-Bucket zurück, den Sie in der Anforderung angegeben haben.

Erkennen von benutzerdefinierten Entitäten mithilfe der AWS SDK for Java

Beispiele für Amazon Comprehend, die Java verwenden, finden Sie unter Amazon Comprehend Java-Beispiele.

Erkennen von benutzerdefinierten Entitäten mithilfe der AWS SDK for Python (Boto3)

In diesem Beispiel wird ein benutzerdefinierter Entity Recognizer erstellt, das Modell trainiert und dann in einem Entity Recognizer-Auftrag mit der ausgeführt AWS SDK for Python (Boto3).

Instanziieren Sie das SDK für Python.

import boto3 import uuid comprehend = boto3.client("comprehend", region_name="region")

Erstellen Sie einen Entity Recognizer:

response = comprehend.create_entity_recognizer( RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "EntityTypes": [ { "Type": "ENTITY_TYPE" } ], "Documents": { "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, "Annotations": { "S3Uri": "s3://Bucket Name/Bucket Path/annotations" } } ) recognizer_arn = response["EntityRecognizerArn"]

Listet alle Erkennungen auf:

response = comprehend.list_entity_recognizers()

Warten Sie, bis der Entity Recognizer den Status TRAINED erreicht:

while True: response = comprehend.describe_entity_recognizer( EntityRecognizerArn=recognizer_arn ) status = response["EntityRecognizerProperties"]["Status"] if "IN_ERROR" == status: sys.exit(1) if "TRAINED" == status: break time.sleep(10)

Starten Sie einen Auftrag zur Erkennung benutzerdefinierter Entitäten:

response = comprehend.start_entities_detection_job( EntityRecognizerArn=recognizer_arn, JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, OutputDataConfig={ "S3Uri": "s3://Bucket Name/Bucket Path/output" } )

Überschreiben von API-Aktionen für PDF-Dateien

Für Bilddateien und PDF-Dateien können Sie die Standard-Extraktionsaktionen mit dem DocumentReaderConfig Parameter in überschreibenInputDataConfig.

Im folgenden Beispiel wird eine JSON-Datei mit dem Namen myInputDataConfig.json definiert, um die InputDataConfig Werte festzulegen. Sie legt festDocumentReadConfig, dass die Amazon Textract DetectDocumentText API für alle PDF-Dateien verwendet wird.

"InputDataConfig": { "S3Uri": s3://Bucket Name/Bucket Path", "InputFormat": "ONE_DOC_PER_FILE", "DocumentReaderConfig": { "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT", "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION" } }

Geben Sie in der -StartEntitiesDetectionJobOperation die Datei myInputDataConfig.json als InputDataConfig Parameter an:

--input-data-config file://myInputDataConfig.json

Weitere Informationen zu den DocumentReaderConfig Parametern finden Sie unter Festlegen von Optionen für die Textextraktion.