Iniciando um trabalho personalizado de detecção de entidades (API) - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Iniciando um trabalho personalizado de detecção de entidades (API)

Você pode usar a API para iniciar e monitorar um trabalho de análise assíncrona para reconhecimento personalizado de entidades.

Para iniciar um trabalho personalizado de detecção de entidades com a StartEntitiesDetectionJoboperação, você fornece o EntityRecognizerArn, que é o Amazon Resource Name (ARN) do modelo treinado. Você pode encontrar esse ARN na resposta à CreateEntityRecognizeroperação.

Detectando entidades personalizadas usando o AWS Command Line Interface

Use o exemplo a seguir para ambientes Unix, Linux e macOS. Para Windows, substitua o caractere de continuação Unix de barra invertida (\) no final de cada linha por um circunflexo (^). Para detectar entidades personalizadas em um conjunto de documentos, use a seguinte sintaxe de solicitação:

aws comprehend start-entities-detection-job \ --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \ --job-name infer-1 \ --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \ --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \ --region region

O Amazon Comprehend responde com JobID e JobStatus e retornará a saída do trabalho no bucket do S3 que você especificou na solicitação.

Detectando entidades personalizadas usando o AWS SDK for Java

Para obter exemplos do Amazon Comprehend com Java, consulte exemplos em Java para o Amazon Comprehend.

Detectando entidades personalizadas usando o AWS SDK for Python (Boto3)

Este exemplo cria um reconhecedor de entidades personalizado, treina o modelo e o executa em um trabalho de reconhecimento de entidades usando o AWS SDK for Python (Boto3).

Instancie o SDK Python.

import boto3 import uuid comprehend = boto3.client("comprehend", region_name="region")

Crie um reconhecedor de entidades:

response = comprehend.create_entity_recognizer( RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "EntityTypes": [ { "Type": "ENTITY_TYPE" } ], "Documents": { "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, "Annotations": { "S3Uri": "s3://Bucket Name/Bucket Path/annotations" } } ) recognizer_arn = response["EntityRecognizerArn"]

Listar todos os reconhecedores:

response = comprehend.list_entity_recognizers()

Aguarde até que o reconhecedor de entidades atinja o status TRAINED:

while True: response = comprehend.describe_entity_recognizer( EntityRecognizerArn=recognizer_arn ) status = response["EntityRecognizerProperties"]["Status"] if "IN_ERROR" == status: sys.exit(1) if "TRAINED" == status: break time.sleep(10)

Inicie um trabalho personalizado de detecção de entidades:

response = comprehend.start_entities_detection_job( EntityRecognizerArn=recognizer_arn, JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, OutputDataConfig={ "S3Uri": "s3://Bucket Name/Bucket Path/output" } )

Substituindo ações de API para arquivos em PDF

Para arquivos de imagem e arquivos em PDF, você pode substituir as ações padrão de extração usando o parâmetro DocumentReaderConfig em InputDataConfig.

O exemplo a seguir define um arquivo JSON chamado myInputData config.json para definir os valores. InputDataConfig Ele configura DocumentReadConfig para usar a API DetectDocumentText do Amazon Textract para todos os arquivos em PDF.

"InputDataConfig": { "S3Uri": s3://Bucket Name/Bucket Path", "InputFormat": "ONE_DOC_PER_FILE", "DocumentReaderConfig": { "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT", "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION" } }

Na StartEntitiesDetectionJob operação, especifique o arquivo myInputData config.json como parâmetro: InputDataConfig

--input-data-config file://myInputDataConfig.json

Para obter mais informações sobre o parâmetro DocumentReaderConfig, consulte Configurando opções de extração de texto.