Archivos de anotaciones de texto sin formato - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Archivos de anotaciones de texto sin formato

Para las anotaciones de texto sin formato, debe crear un archivo de valores separados por comas (CSV) que contenga una lista de anotaciones. El archivo CSV debe contener las siguientes columnas si el formato de entrada del archivo de entrenamiento es un documento por línea.

Archivos Línea Comienzo del desplazamiento Finalización del desplazamiento Tipo

El nombre del archivo que contiene el documento. Por ejemplo, si uno de los archivos del documento se encuentra en s3://my-S3-bucket/test-files/documents.txt, el valor de la columna File será documents.txt. debe incluir la extensión del archivo (en este caso '.txt') como parte del nombre del archivo.

El número de línea que contiene la entidad. Omite esta columna si el formato de entrada es un documento por archivo.

El desplazamiento de caracteres en el texto de entrada (en relación con el principio de la línea) que muestra dónde comienza la entidad. El primer carácter está en la posición 0.

El desplazamiento de caracteres en el texto de entrada que muestra dónde termina la entidad.

El tipo de entidad definido por el cliente. Los tipos de entidad deben ser una cadena en mayúscula, separada por guiones bajos. Se recomienda utilizar tipos de entidades descriptivos como MANAGER, SENIOR_MANAGER o PRODUCT_CODE. Se pueden entrenar hasta 25 tipos de entidades por modelo.

Si el formato de entrada del archivo de entrenamiento es un documento por archivo, omite la columna del número de línea y los valores del Inicio del desplazamiento y la Finalización del desplazamiento son los desplazamientos de la entidad desde el principio del documento.

El siguiente ejemplo es para un documento por línea. El documents.txt del archivo contiene cuatro líneas (filas 0, 1, 2 y 3):

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

El archivo CSV con la lista de anotaciones es el siguiente:

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
nota

En el archivo de anotaciones, el número de línea que contiene la entidad comienza por la línea 0. En este ejemplo, el archivo CSV no contiene ninguna entrada para la línea 2 porque no hay ninguna entidad en la línea 2 de documents.txt.

Crear sus archivos de datos

Es importante colocar las anotaciones en un archivo CSV correctamente configurado para reducir el riesgo de errores. Para configurar de forma manual el archivo CSV, lo siguiente debe ser verdadero:

  • La codificación UTF-8 debe especificarse de forma explícita, incluso cuando se utiliza de forma predeterminada en la mayoría de los casos.

  • La primera línea contiene los encabezados de las columnas: File, Line (opcional) Begin Offset, End Offset, Type.

Se recomienda encarecidamente que generes los archivos de entrada CSV mediante programación para evitar posibles problemas.

El siguiente ejemplo usa Python para generar un CSV para las anotaciones mostradas anteriormente:

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])