Usando o AWS CLI Usar o SDK para Java=/Utilizar o Python SDK Substituindo ações de API para arquivos em PDF

Iniciar um trabalho personalizado de detecção de entidades (API)

Você pode usar a API para iniciar e monitorar um trabalho de análise assíncrona para reconhecimento personalizado de entidades.

Para iniciar um trabalho personalizado de detecção de entidades com a StartEntitiesDetectionJoboperação, você fornece o EntityRecognizerArn, que é o Amazon Resource Name (ARN) do modelo treinado. Você pode encontrar esse ARN na resposta à CreateEntityRecognizeroperação.

Tópicos

Detectando entidades personalizadas usando o AWS Command Line Interface
Detectando entidades personalizadas usando o AWS SDK para Java
Detectando entidades personalizadas usando o AWS SDK para Python (Boto3)
Substituindo ações de API para arquivos em PDF

Detectando entidades personalizadas usando o AWS Command Line Interface

Use o exemplo a seguir para ambientes Unix, Linux e macOS. Para Windows, substitua o caractere de continuação Unix de barra invertida (\) no final de cada linha por um circunflexo (^). Para detectar entidades personalizadas em um conjunto de documentos, use a seguinte sintaxe de solicitação:


aws comprehend start-entities-detection-job \
     --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \
     --job-name infer-1 \
     --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \
     --language-code en \
     --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \
     --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \
     --region region

O Amazon Comprehend responde com JobID e JobStatus e retornará a saída do trabalho no bucket do S3 que você especificou na solicitação.

Detectando entidades personalizadas usando o AWS SDK para Java

Para obter exemplos do Amazon Comprehend com Java, consulte exemplos em Java para o Amazon Comprehend.

Detectando entidades personalizadas usando o AWS SDK para Python (Boto3)

Este exemplo cria um reconhecedor de entidades personalizado, treina o modelo e o executa em um trabalho de reconhecimento de entidades usando o AWS SDK para Python (Boto3).

Instancie o SDK Python.


import boto3
import uuid
comprehend = boto3.client("comprehend", region_name="region")

Crie um reconhecedor de entidades:


response = comprehend.create_entity_recognizer(
    RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "EntityTypes": [
            {
                "Type": "ENTITY_TYPE"
            }
        ],
        "Documents": {
            "S3Uri": "s3://Bucket Name/Bucket Path/documents"
        },
        "Annotations": {
            "S3Uri": "s3://Bucket Name/Bucket Path/annotations"
        }
    }
)
recognizer_arn = response["EntityRecognizerArn"]

Listar todos os reconhecedores:


response = comprehend.list_entity_recognizers()

Aguarde até que o reconhecedor de entidades atinja o status TRAINED:


while True:
    response = comprehend.describe_entity_recognizer(
        EntityRecognizerArn=recognizer_arn
    )

    status = response["EntityRecognizerProperties"]["Status"]
    if "IN_ERROR" == status:
        sys.exit(1)
    if "TRAINED" == status:
        break

    time.sleep(10)

Inicie um trabalho personalizado de detecção de entidades:


response = comprehend.start_entities_detection_job(
    EntityRecognizerArn=recognizer_arn,
    JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())),
    LanguageCode="en",
    DataAccessRoleArn="Role ARN",
    InputDataConfig={
        "InputFormat": "ONE_DOC_PER_LINE",
        "S3Uri": "s3://Bucket Name/Bucket Path/documents"
    },
    OutputDataConfig={
        "S3Uri": "s3://Bucket Name/Bucket Path/output"
    }
)

Substituindo ações de API para arquivos em PDF

Para arquivos de imagem e arquivos em PDF, você pode substituir as ações padrão de extração usando o parâmetro DocumentReaderConfig em InputDataConfig.

O exemplo a seguir define um arquivo JSON chamado myInputData config.json para definir os valores. InputDataConfig Ele configura DocumentReadConfig para usar a API DetectDocumentText do Amazon Textract para todos os arquivos em PDF.


"InputDataConfig": {
  "S3Uri": s3://Bucket Name/Bucket Path",
  "InputFormat": "ONE_DOC_PER_FILE",
  "DocumentReaderConfig": {
      "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT",
      "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION"
  }
}

Na StartEntitiesDetectionJob operação, especifique o arquivo myInputData config.json como parâmetro: InputDataConfig


  --input-data-config file://myInputDataConfig.json

Para obter mais informações sobre o parâmetro DocumentReaderConfig, consulte Configurar opções de extração de texto.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Tarefas de análise (console)

Saídas para trabalhos de análise