Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cómo iniciar un trabajo de detección de entidades personalizadas (API)
Puede utilizar la API para iniciar y supervisar un trabajo de análisis asíncrono para el reconocimiento de entidades personalizado.
Para iniciar un trabajo de detección de entidades personalizado con la StartEntitiesDetectionJoboperación, debe proporcionar el EntityRecognizerArn, que es el nombre de recurso de Amazon (ARN) del modelo entrenado. Puede encontrar este ARN en la respuesta a la CreateEntityRecognizeroperación.
Temas
Detectar entidades personalizadas mediante el AWS Command Line Interface
Utilice el ejemplo siguiente para entornos Unix, Linux y macOS. Para Windows, sustituya la barra diagonal invertida (\) utilizada como carácter de continuación de Unix al final de cada línea por el signo de intercalación (^). Para detectar entidades personalizadas en un conjunto de documentos, utilice la siguiente sintaxis de solicitud:
aws comprehend start-entities-detection-job \ --entity-recognizer-arn "arn:aws:comprehend:
region
:account number
:entity-recognizer/test-6" \ --job-name infer-1 \ --data-access-role-arn "arn:aws:iam::account number
:role/service-role/AmazonComprehendServiceRole-role" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name
/Bucket Path
" \ --output-data-config "S3Uri=s3://Bucket Name
/Bucket Path
/" \ --regionregion
Amazon Comprehend responde con JobID
y JobStatus
y devolverá la salida del trabajo en el bucket de S3 que especificó en la solicitud.
Detección de entidades personalizadas mediante el AWS SDK for Java
Para ver ejemplos de Amazon Comprehend que utilicen Java, consulte Ejemplos de Java con Amazon Comprehend
Detectar entidades personalizadas mediante el AWS SDK for Python (Boto3)
En este ejemplo se crea un reconocedor de entidades personalizadas, se entrena el modelo y, a continuación, se ejecuta en una tarea de reconocimiento de entidades mediante el AWS SDK for Python (Boto3).
Crear una instancia del SDK para Python.
import boto3 import uuid comprehend = boto3.client("comprehend", region_name="
region
")
Crear un reconocedor de entidades:
response = comprehend.create_entity_recognizer( RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="
Role ARN
", InputDataConfig={ "EntityTypes": [ { "Type": "ENTITY_TYPE
" } ], "Documents": { "S3Uri": "s3://Bucket Name
/Bucket Path
/documents" }, "Annotations": { "S3Uri": "s3://Bucket Name
/Bucket Path
/annotations" } } ) recognizer_arn = response["EntityRecognizerArn"]
Enumerar todos los reconocedores:
response = comprehend.list_entity_recognizers()
Espere a que el reconocedor de entidades alcance el estado ENTRENADO:
while True: response = comprehend.describe_entity_recognizer( EntityRecognizerArn=recognizer_arn ) status = response["EntityRecognizerProperties"]["Status"] if "IN_ERROR" == status: sys.exit(1) if "TRAINED" == status: break time.sleep(10)
Iniciar un trabajo de detección de entidades personalizadas:
response = comprehend.start_entities_detection_job( EntityRecognizerArn=recognizer_arn, JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="
Role ARN
", InputDataConfig={ "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://Bucket Name
/Bucket Path
/documents" }, OutputDataConfig={ "S3Uri": "s3://Bucket Name
/Bucket Path
/output" } )
Anulación de las acciones de la API para los archivos PDF
En el caso de los archivos de imagen y los archivos PDF, puede anular acciones de extracción predeterminadas usando el parámetro DocumentReaderConfig
de InputDataConfig
.
En el siguiente ejemplo, se define un archivo JSON denominado myInputData Config.json para establecer los InputDataConfig
valores. Configura DocumentReadConfig
para utilizar la API DetectDocumentText
de Amazon Textract para todos los archivos PDF.
"InputDataConfig": { "S3Uri": s3://
Bucket Name
/Bucket Path
", "InputFormat": "ONE_DOC_PER_FILE", "DocumentReaderConfig": { "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT", "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION" } }
En la StartEntitiesDetectionJob
operación, especifique el archivo myInputData Config.json como parámetro: InputDataConfig
--input-data-config file://myInputDataConfig.json
Para obtener más información acerca de los parámetros DocumentReaderConfig
, consulte Configuración de las opciones de extracción de texto.