À l'aide du AWS CLI Utilisation du kit SDK pour Java Utilisation du SDK Python Remplacer les actions de l'API pour les fichiers PDF

Démarrage d'une tâche de détection d'entités personnalisée (API)

Vous pouvez utiliser l'API pour démarrer et surveiller une tâche d'analyse asynchrone pour une reconnaissance d'entité personnalisée.

Pour démarrer une tâche de détection d'entité personnalisée avec l'StartEntitiesDetectionJobopération, vous devez fournir le EntityRecognizerArn, qui est l'Amazon Resource Name (ARN) du modèle entraîné. Vous pouvez trouver cet ARN dans la réponse à l'CreateEntityRecognizeropération.

Rubriques

Détection d'entités personnalisées à l'aide du AWS Command Line Interface
Détection d'entités personnalisées à l'aide du AWS SDK pour Java
Détection d'entités personnalisées à l'aide du AWS SDK pour Python (Boto3)
Remplacer les actions de l'API pour les fichiers PDF

Détection d'entités personnalisées à l'aide du AWS Command Line Interface

Utilisez l'exemple suivant pour les environnements Unix, Linux et macOS. Pour Windows, remplacez le caractère de continuation Unix, à savoir la barre oblique inversée (\), à la fin de chaque ligne par un accent circonflexe (^). Pour détecter des entités personnalisées dans un ensemble de documents, utilisez la syntaxe de demande suivante :


aws comprehend start-entities-detection-job \
     --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \
     --job-name infer-1 \
     --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \
     --language-code en \
     --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \
     --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \
     --region region

Amazon Comprehend répond par le JobID JobStatus et renvoie le résultat de la tâche dans le compartiment S3 que vous avez spécifié dans la demande.

Détection d'entités personnalisées à l'aide du AWS SDK pour Java

Pour des exemples Amazon Comprehend utilisant Java, consultez les exemples Amazon Comprehend Java.

Détection d'entités personnalisées à l'aide du AWS SDK pour Python (Boto3)

Cet exemple crée un outil de reconnaissance d'entités personnalisé, entraîne le modèle, puis l'exécute dans une tâche de reconnaissance d'entités à l'aide du. AWS SDK pour Python (Boto3)

Instanciez le SDK pour Python.


import boto3
import uuid
comprehend = boto3.client("comprehend", region_name="region")

Créez un outil de reconnaissance d'entités :


response = comprehend.create_entity_recognizer(
    RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "EntityTypes": [
            {
                "Type": "ENTITY_TYPE"
            }
        ],
        "Documents": {
            "S3Uri": "s3://Bucket Name/Bucket Path/documents"
        },
        "Annotations": {
            "S3Uri": "s3://Bucket Name/Bucket Path/annotations"
        }
    }
)
recognizer_arn = response["EntityRecognizerArn"]

Répertoriez tous les outils de reconnaissance :


response = comprehend.list_entity_recognizers()

Attendez que le système de reconnaissance d'entités atteigne le statut TRAINED :


while True:
    response = comprehend.describe_entity_recognizer(
        EntityRecognizerArn=recognizer_arn
    )

    status = response["EntityRecognizerProperties"]["Status"]
    if "IN_ERROR" == status:
        sys.exit(1)
    if "TRAINED" == status:
        break

    time.sleep(10)

Démarrez une tâche de détection d'entités personnalisée :


response = comprehend.start_entities_detection_job(
    EntityRecognizerArn=recognizer_arn,
    JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "InputFormat": "ONE_DOC_PER_LINE",
        "S3Uri": "s3://Bucket Name/Bucket Path/documents"
    },
    OutputDataConfig={
        "S3Uri": "s3://Bucket Name/Bucket Path/output"
    }
)

Remplacer les actions de l'API pour les fichiers PDF

Pour les fichiers image et les fichiers PDF, vous pouvez remplacer les actions d'extraction par défaut à l'aide du DocumentReaderConfig paramètre inInputDataConfig.

L'exemple suivant définit un fichier JSON nommé myInputData Config.json pour définir les InputDataConfig valeurs. Il est configuré DocumentReadConfig pour utiliser l'DetectDocumentTextAPI Amazon Textract pour tous les fichiers PDF.


"InputDataConfig": {
  "S3Uri": s3://Bucket Name/Bucket Path",
  "InputFormat": "ONE_DOC_PER_FILE",
  "DocumentReaderConfig": {
      "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT",
      "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION"
  }
}

Dans l'StartEntitiesDetectionJobopération, spécifiez le fichier myInputData Config.json comme paramètre : InputDataConfig


  --input-data-config file://myInputDataConfig.json

Pour plus d'informations sur les DocumentReaderConfig paramètres, consultezConfiguration des options d'extraction de texte.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Tâches d'analyse (console)

Sorties pour les tâches d'analyse