Utilizzando il AWS CLI Utilizzo dell'SDK per Java Usare l'SDK Python Sovrascrivere le azioni API per i file PDF

Avvio di un processo di rilevamento delle entità personalizzato (API)

È possibile utilizzare l'API per avviare e monitorare un processo di analisi asincrono per il riconoscimento personalizzato delle entità.

Per avviare un processo di rilevamento di entità personalizzato con l'StartEntitiesDetectionJoboperazione, fornisci il EntityRecognizerArn, che è l'Amazon Resource Name (ARN) del modello addestrato. Puoi trovare questo ARN nella risposta all'CreateEntityRecognizeroperazione.

Argomenti

Rilevamento di entità personalizzate utilizzando il AWS Command Line Interface
Rilevamento di entità personalizzate utilizzando il AWS SDK per Java
Rilevamento di entità personalizzate utilizzando il AWS SDK per Python (Boto3)
Sovrascrivere le azioni API per i file PDF

Rilevamento di entità personalizzate utilizzando il AWS Command Line Interface

Usa l'esempio seguente per ambienti Unix, Linux e macOS. Per Windows, sostituisci il carattere di continuazione UNIX barra rovesciata (\) al termine di ogni riga con un accento circonflesso (^). Per rilevare entità personalizzate in un set di documenti, utilizzate la seguente sintassi di richiesta:


aws comprehend start-entities-detection-job \
     --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \
     --job-name infer-1 \
     --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \
     --language-code en \
     --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \
     --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \
     --region region

Amazon Comprehend risponde con JobID and JobStatus e restituirà l'output del job nel bucket S3 specificato nella richiesta.

Rilevamento di entità personalizzate utilizzando il AWS SDK per Java

Per esempi di Amazon Comprehend che utilizzano Java, consulta Esempi di Amazon Comprehend Java.

Rilevamento di entità personalizzate utilizzando il AWS SDK per Python (Boto3)

Questo esempio crea un riconoscimento di entità personalizzato, addestra il modello e quindi lo esegue in un processo di riconoscimento di entità utilizzando. AWS SDK per Python (Boto3)

Crea un'istanza dell'SDK per Python.


import boto3
import uuid
comprehend = boto3.client("comprehend", region_name="region")

Crea un riconoscitore di entità:


response = comprehend.create_entity_recognizer(
    RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "EntityTypes": [
            {
                "Type": "ENTITY_TYPE"
            }
        ],
        "Documents": {
            "S3Uri": "s3://Bucket Name/Bucket Path/documents"
        },
        "Annotations": {
            "S3Uri": "s3://Bucket Name/Bucket Path/annotations"
        }
    }
)
recognizer_arn = response["EntityRecognizerArn"]

Elenca tutti i riconoscitori:


response = comprehend.list_entity_recognizers()

Attendi che il riconoscimento dell'entità raggiunga lo stato TRAINED:


while True:
    response = comprehend.describe_entity_recognizer(
        EntityRecognizerArn=recognizer_arn
    )

    status = response["EntityRecognizerProperties"]["Status"]
    if "IN_ERROR" == status:
        sys.exit(1)
    if "TRAINED" == status:
        break

    time.sleep(10)

Avvia un processo personalizzato di rilevamento delle entità:


response = comprehend.start_entities_detection_job(
    EntityRecognizerArn=recognizer_arn,
    JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "InputFormat": "ONE_DOC_PER_LINE",
        "S3Uri": "s3://Bucket Name/Bucket Path/documents"
    },
    OutputDataConfig={
        "S3Uri": "s3://Bucket Name/Bucket Path/output"
    }
)

Sovrascrivere le azioni API per i file PDF

Per i file di immagine e i file PDF, puoi sovrascrivere le azioni di estrazione predefinite utilizzando il DocumentReaderConfig parametro in. InputDataConfig

L'esempio seguente definisce un file JSON denominato myInputData Config.json per impostare i valori. InputDataConfig È impostato DocumentReadConfig per utilizzare l'DetectDocumentTextAPI Amazon Textract per tutti i file PDF.


"InputDataConfig": {
  "S3Uri": s3://Bucket Name/Bucket Path",
  "InputFormat": "ONE_DOC_PER_FILE",
  "DocumentReaderConfig": {
      "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT",
      "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION"
  }
}

Nell'StartEntitiesDetectionJoboperazione, specifica il file myInputData Config.json come parametro: InputDataConfig


  --input-data-config file://myInputDataConfig.json

Per ulteriori informazioni sui DocumentReaderConfig parametri, vedere. Impostazione delle opzioni di estrazione del testo

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Lavori di analisi (console)

Output per lavori di analisi