Crear un archivo de tesauro - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Crear un archivo de tesauro

Un archivo de Amazon Kendra sinónimos es un archivo codificado en UTF-8 que contiene una lista de sinónimos en el formato de lista de sinónimos de Solr. El archivo.zip debe tener menos de 5 MB.

Hay dos formas de especificar las asignaciones de sinónimos:

  • Los sinónimos bidireccionales se especifican como una lista de términos separados por comas. Si el usuario consulta alguno de los términos, se utilizarán todos los términos de la lista para buscar documentos, incluido el término original consultado.

  • Los sinónimos unidireccionales se especifican como términos separados por el símbolo “=>” entre ellos para asignar los términos a sus sinónimos. Si el usuario consulta un término a la izquierda del símbolo “=>”, se asigna a un término de la derecha para buscar documentos utilizando el sinónimo. No se mapea al revés, por lo que es unidireccional.

Los sinónimos en sí distinguen mayúsculas de minúsculas, pero los términos a los que se asignan no distinguen mayúsculas de minúsculas. Por ejemplo, ML => Machine Learning significa que si su usuario consulta “ML” o “ml” o utiliza algún otro caso, se mapeará a "Machine Learning". Si tuviera que trazar este mapa a la inversa, Machine Learning => ML, entonces “Machine Learning” o “machine learning” o algún otro caso se asignaría a “ML”.

Un sinónimo no busca una coincidencia exacta en caracteres especiales. Por ejemplo, si busca "dead-letter-queue«, Amazon Kendra devolverá los documentos que coincidan con la frase «cola de cartas muertas» (sin guiones). Si los documentos contienen guiones, como dead-letter-queue ««, Amazon Kendra los procesa para eliminar los guiones al buscar términos coincidentes.

En el caso de los sinónimos que contienen palabras incompletas o palabras de uso común, Amazon Kendra devuelve los documentos que coinciden con los términos, incluidas las palabras clave. Por ejemplo, puedes crear una regla de sinónimos para mapear las palabras «incorporación» e «incorporación». No puede utilizar únicamente palabras rápidas como sinónimos. Por ejemplo, si busca «activado», Amazon Kendra no podrá mostrar todos los documentos que contengan «activado».

Se ignoran algunas reglas de sinónimos. Por ejemplo, a => b es una regla, pero a => a se ignora y no cuenta como regla.

El número de términos es el número de términos únicos en el archivo de sinónimos. El siguiente archivo de ejemplo incluye los términos AWS CodeStar MLMachine Learning,autoscaling group,ASG, y más.

Hay una cantidad máxima de reglas de sinónimos por tesauro y una cantidad máxima de sinónimos por término. Para obtener más información, consulte Cuotas para Amazon Kendra.

El siguiente ejemplo muestra un archivo de tesauros con reglas de sinónimos. Cada línea contiene una única regla de sinónimos. Se ignoran las líneas en blanco y los comentarios.

# Lines starting with pound are comments and blank lines are ignored. # Synonym relationships can be defined as unidirectional or bidirectional relationships. # Unidirection relationships are represented by any term sequence # on the left hand side (LHS) of "=>" followed by synonyms on the right hand side (RHS) CodeStar => AWS CodeStar # This will map CodeStar to AWS CodeStar, but not vice-versa # To map terms vice versa ML => Machine Learning Machine Learning => ML # Multiple synonym relationships may be defined in one line as well by comma seperation. autoscaling group, ASG => Auto Scaling group, autoscaling # The above is equivalent to: # autoscaling group => Auto Scaling group, autoscaling # ASG => Auto Scaling group, autoscaling # Bi-directional synonyms are comma separated terms with no "=>" DNS, Route53, Route 53 # DNS, Route53, and Route 53 map to one another and are interchangeable at match time # The above is equivalent to: # DNS => Route53, Route 53 # Route53 => DNS, Route 53 # Route 53 => DNS, Route53 # Overlapping LHS terms will be merged Beta => Alpha Beta => Gamma Beta, Delta # is equivalent to: # Beta => Alpha, Gamma, Delta # Delta => Beta # Each line contains a single synonym rule. # Synonym rule count is the total number of lines defining synonym relationships # Term count is the total number of unique terms for all rules. # Comments and blanks lines do not count.