Démarrage d'une tâche de détection d'entités personnalisée (API) - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Démarrage d'une tâche de détection d'entités personnalisée (API)

Vous pouvez utiliser l'API pour démarrer et surveiller une tâche d'analyse asynchrone pour une reconnaissance d'entité personnalisée.

Pour démarrer une tâche de détection d'entité personnalisée avec l'StartEntitiesDetectionJobopération, vous devez fournir le EntityRecognizerArn, qui est l'Amazon Resource Name (ARN) du modèle entraîné. Vous pouvez trouver cet ARN dans la réponse à l'CreateEntityRecognizeropération.

Détection d'entités personnalisées à l'aide du AWS Command Line Interface

Utilisez l'exemple suivant pour les environnements Unix, Linux et macOS. Pour Windows, remplacez le caractère de continuation Unix, à savoir la barre oblique inversée (\), à la fin de chaque ligne par un accent circonflexe (^). Pour détecter des entités personnalisées dans un ensemble de documents, utilisez la syntaxe de demande suivante :

aws comprehend start-entities-detection-job \ --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \ --job-name infer-1 \ --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \ --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \ --region region

Amazon Comprehend répond par le JobID JobStatus et renvoie le résultat de la tâche dans le compartiment S3 que vous avez spécifié dans la demande.

Détection d'entités personnalisées à l'aide du AWS SDK for Java

Pour des exemples Amazon Comprehend utilisant Java, consultez les exemples Amazon Comprehend Java.

Détection d'entités personnalisées à l'aide du AWS SDK for Python (Boto3)

Cet exemple crée un outil de reconnaissance d'entités personnalisé, entraîne le modèle, puis l'exécute dans une tâche de reconnaissance d'entités à l'aide du. AWS SDK for Python (Boto3)

Instanciez le SDK pour Python.

import boto3 import uuid comprehend = boto3.client("comprehend", region_name="region")

Créez un outil de reconnaissance d'entités :

response = comprehend.create_entity_recognizer( RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "EntityTypes": [ { "Type": "ENTITY_TYPE" } ], "Documents": { "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, "Annotations": { "S3Uri": "s3://Bucket Name/Bucket Path/annotations" } } ) recognizer_arn = response["EntityRecognizerArn"]

Répertoriez tous les outils de reconnaissance :

response = comprehend.list_entity_recognizers()

Attendez que le système de reconnaissance d'entités atteigne le statut TRAINED :

while True: response = comprehend.describe_entity_recognizer( EntityRecognizerArn=recognizer_arn ) status = response["EntityRecognizerProperties"]["Status"] if "IN_ERROR" == status: sys.exit(1) if "TRAINED" == status: break time.sleep(10)

Démarrez une tâche de détection d'entités personnalisée :

response = comprehend.start_entities_detection_job( EntityRecognizerArn=recognizer_arn, JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, OutputDataConfig={ "S3Uri": "s3://Bucket Name/Bucket Path/output" } )

Remplacer les actions de l'API pour les fichiers PDF

Pour les fichiers image et les fichiers PDF, vous pouvez remplacer les actions d'extraction par défaut à l'aide du DocumentReaderConfig paramètre inInputDataConfig.

L'exemple suivant définit un fichier JSON nommé myInputData Config.json pour définir les InputDataConfig valeurs. Il est configuré DocumentReadConfig pour utiliser l'DetectDocumentTextAPI Amazon Textract pour tous les fichiers PDF.

"InputDataConfig": { "S3Uri": s3://Bucket Name/Bucket Path", "InputFormat": "ONE_DOC_PER_FILE", "DocumentReaderConfig": { "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT", "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION" } }

Dans l'StartEntitiesDetectionJobopération, spécifiez le fichier myInputData Config.json comme paramètre : InputDataConfig

--input-data-config file://myInputDataConfig.json

Pour plus d'informations sur les DocumentReaderConfig paramètres, consultezConfiguration des options d'extraction de texte.