Creación de un archivo de diccionario - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de un archivo de diccionario

UnAmazon Kendrathesaurus es un archivo codificado en UTF-8 que contiene una lista de sinónimos en el formato de lista de sinónimos Solr. Los sinónimos distinguen entre mayúsculas El archivo del diccionario debe tener menos de 5 MB.

Hay dos formas de especificar las asignaciones de sinónimos:

  • Sinónimos bidireccionalesse especifican como una lista de términos separados por comas. Si el token coincide con cualquiera de los términos, se sustituyen todos los términos de la lista, que incluye el token original.

  • Sinónimos unidireccionalesse especifican como dos listas de términos separadas por comas con el símbolo «=>» entre ellos. Si el token coincide con cualquier palabra de la izquierda, se sustituye la lista de la derecha. El mapeo se realiza solo de izquierda a derecha.

En el siguiente ejemplo, se muestra un archivo de tesauro con sinónimos para el ejemplo.AWSdocumentación deAmazon Kendra. Cada línea contiene una única regla de sinónimo. Un sinónimo no coincide exactamente con los caracteres especiales. Por ejemplo, si buscasdead-letter-queue, Kendra combina documentos con la frasedead letter queue. Se ignoran las líneas en blanco y los comentarios.

# Lines starting with pound are comments and blank lines are ignored. # Synonym relationships can be defined as unidirectional or bidirectional relationships. # Unidirection relationships are represented by any term sequence # on the left hand side (LHS) of "=>" followed by synonyms on the right hand side (RHS) CodeStar => AWS CodeStar # This will map CodeStar to AWS CodeStar, but not vice-versa # Multiple synonym relationships may be defined in one line as well by comma seperation. autoscaling group, ASG => Auto Scaling group, autoscaling # The above is equivalent to: # autoscaling group => Auto Scaling group, autoscaling # ASG => Auto Scaling group, autoscaling # Bi-directional synonyms are comma separated terms with no "=>" DNS, Route53, Route 53 # DNS, Route53, and Route 53 map to one another and are interchangeable at match time # The above is equivalent to: # DNS => Route53, Route 53 # Route53 => DNS, Route 53 # Route 53 => DNS, Route53 # Overlapping LHS terms will be merged Beta => Alpha Beta => Gamma Beta, Delta # is equivalent to: # Beta => Alpha, Gamma, Delta # Delta => Beta # Synonym rule count is the total number of lines defining synonym relationships # Term count is the total number of unique terms for all rules. # This thesaurus has a synonym rule count of 6 and a term count of 18. # Comments and blanks lines do not count.

Este ejemplo tiene 6 reglas y 18 términos. Cada línea contiene una única regla de sinónimo. Un sinónimo no coincide exactamente con los caracteres especiales. Por ejemplo, si busca cola de letras sin salida, Kendra coincidirá con los documentos que coincidan con la cola de letras muertas. Se ignoran las líneas en blanco y los comentarios. Algunas reglas se omiten. Por ejemplo,a => bes una regla, peroa => ase ignora y no se cuenta por regla general. Un sinónimo no coincide exactamente con los caracteres especiales. Por ejemplo, si buscasdead-letter-queue,Amazon Kendracoincidirá el documento que contienedead letter queue(sin guión). Puede tener un máximo de 10.000 reglas de sinónimos por tesauro.

El recuento de términos es el número de términos únicos del archivo theaurus. Este ejemplo incluye los siguientes términos:AWS CodeStar,autoscaling group,asg,Auto Scaling group,autoscaling,DNS,Route53,Route 53,dns,route53,route 53,beta,Alpha,Gamma,Delta, ydelta. Puede tener hasta 10 sinónimos por término.

Para obtener más información acerca de las cuotas de Amazon Kendra, consulte Cuotas para Amazon Kendra.