Archivos de anotación de PDF - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Archivos de anotación de PDF

Para las anotaciones en PDF, usa SageMaker Ground Truth para crear un conjunto de datos etiquetado en un archivo de manifiesto aumentado. Ground Truth es un servicio de etiquetado de datos que le ayuda a usted (o al personal que emplee) a crear conjuntos de datos de entrenamiento para modelos de machine learning. Amazon Comprehend acepta archivos de manifiesto aumentados como datos de entrenamiento para modelos personalizados. Puede proporcionar estos archivos al crear un reconocedor de entidades personalizado mediante la consola Amazon Comprehend o la acción de CreateEntityRecognizerla API.

Puede usar el tipo de trabajo integrado Ground Truth, Reconocimiento de entidades nombradas, para crear un trabajo de etiquetado que permita a los trabajadores identificar las entidades en el texto. Para obtener más información, consulte Reconocimiento de entidades nombradas en la Guía para SageMaker desarrolladores de Amazon. Para obtener más información sobre Amazon SageMaker Ground Truth, consulta Cómo usar Amazon SageMaker Ground Truth para etiquetar datos.

nota

Con Ground Truth, puede definir etiquetas superpuestas (texto que asocia a más de una etiqueta). Sin embargo, el reconocimiento de entidades de Amazon Comprehend no admite etiquetas superpuestas.

Los archivos de manifiesto aumentados están en formato de líneas JSON. En estos archivos, cada línea es un objeto JSON completo que contiene un documento de entrenamiento y sus etiquetas asociadas. El siguiente ejemplo es un archivo de manifiesto aumentado que entrena a un reconocedor de entidades para detectar las profesiones de las personas que se mencionan en el texto:

{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

Cada línea de este archivo de líneas JSON es un objeto JSON completo, donde los atributos incluyen el texto del documento, las anotaciones y otros metadatos de Ground Truth. El siguiente ejemplo es un único objeto JSON del archivo de manifiesto aumentado, pero se le ha dado formato para facilitar la lectura:

{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }

En este ejemplo, el atributo source proporciona el texto del documento de entrenamiento y el atributo NamedEntityRecognitionDemo proporciona las anotaciones de las entidades en el texto. El nombre del atributo NamedEntityRecognitionDemo es arbitrario y usted proporciona un nombre de su elección al definir el trabajo de etiquetado en Ground Truth.

En este ejemplo, el atributo NamedEntityRecognitionDemo es el nombre del atributo de etiqueta, que es el atributo que proporciona las etiquetas que un trabajador de Ground Truth asigna a los datos de entrenamiento. Al proporcionar los datos de entrenamiento a Amazon Comprehend, debe especificar uno o más nombres de atributos de etiqueta. El número de nombres de atributo que especifique depende de si el archivo de manifiesto aumentado es el resultado de un único trabajo de etiquetado o de un trabajo de etiquetado encadenado.

Si el archivo es el resultado de un único trabajo de etiquetado, especifique el nombre del atributo de etiqueta único que se utilizó cuando se creó el trabajo en Ground Truth.

Si el archivo es el resultado de un trabajo de etiquetado encadenado, especifique el nombre del atributo de etiqueta para uno o más trabajos de la cadena. Cada nombre de atributo de etiqueta proporciona las anotaciones de un trabajo individual. Puede especificar hasta cinco de estos atributos para los archivos de manifiesto aumentados que se generan mediante trabajos de etiquetado encadenados.

En un archivo de manifiesto aumentado, el nombre del atributo de etiqueta suele ir después de la clave source. Si el archivo es el resultado de un trabajo encadenado, habrá varios nombres de atributos de etiqueta. Cuando proporcione sus datos de entrenamiento a Amazon Comprehend, proporcione solo los atributos que contengan anotaciones que sean relevantes para su modelo. No especifique los atributos que terminan en “-metadata”.

Para obtener más información sobre los trabajos de etiquetado encadenado y ver ejemplos del resultado que producen, consulte Encadenar los trabajos de etiquetado en cadena en la Guía para SageMaker desarrolladores de Amazon.