Adición de sinónimos personalizados a un índice - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Adición de sinónimos personalizados a un índice

Para añadir sinónimos personalizados a un índice, especifíquelos en un archivo de tesauro. Puede incluir términos específicos de empresa o especializados enAmazon Kendrausando sinónimos. Sinónimos genéricos en inglés, comoleader, head, están incorporadas enAmazon Kendray no debe incluirse en un archivo de sinónimos.Amazon Kendraadmite sinónimos para todos los tipos de respuestas, que incluyenDOCUMENTtipos de respuestas yQUESTION_ANSWERoANSWERtipos de respuestas.Amazon Kendraactualmente no admite la adición de sinónimos marcados como palabras clave. Esto se incluirá en una versión future.

Amazon Kendrahace correlaciones entre sinónimos. Por ejemplo, utilizar el par de sinónimosDynamo, Amazon DynamoDB,Amazon Kendracorrelaciona Dynamo conAmazon DynamoDB. La consulta «¿Qué es dinamo?» luego devuelve un documento como «Qué esAmazon DynamoDB?». Con sinónimos,Amazon Kendrapuede captar más fácilmente la correlación.

El archivo de tesauro utiliza elSolr formato de sinónimo.Amazon Kendratiene un límite en el número de tesauros por índice. ConsulteCuotas.

Los sinónimos pueden ser útiles en los siguientes escenarios:

  • Términos especializados que no son sinónimos tradicionales del idioma inglés, comoNLP, Natural Language Processing.

  • Sustantivos adecuados con asociaciones semánticas complejas. Son sustantivos que es poco probable que el público en general comprenda, por ejemplo, en el aprendizaje automático,cost, loss, model performance.

  • Diferentes formas de nombres de productos, por ejemplo,Elastic Compute Cloud, EC2.

  • Términos específicos del dominio o específicos de la empresa, como nombres de productos. Por ejemplo, Route53, DNS.

No utilice sinónimos en los siguientes escenarios:

  • Sinónimos genéricos en inglés comoleader, head. Estos sinónimos no son específicos del dominio y el uso de sinónimos en estos escenarios puede tener efectos no deseados.

  • Errores tipográficos tales comoteh => the.

  • Variantes morfológicas como los plurales y los posesivos de sustantivos, la forma comparativa y superlativa de los adjetivos, y el pasado, el participio pasado y la forma progresiva de verbos. Un ejemplo de adjetivos comparativos y superlativos esgood, better, best.

  • Palabras de detención de Unigram (palabra única) comoWHO. Las palabras de detención de Unigram no están permitidas en el tesauro y están excluidas de la búsqueda. Por ejemplo,WHO => World Health Organizationse rechaza. Puede usarW.H.O.sin embargo, como término sinónimo, y puedes usar palabras de detención como parte de un sinónimo de varias palabras. Por ejemplo,ofno está permitido peroUnited States of Americase acepta.

Los sinónimos personalizados facilitan la mejoraAmazon Kendrasu comprensión de la terminología específica de su empresa ampliando sus consultas para cubrir los sinónimos específicos de su empresa. Aunque los sinónimos pueden mejorar la precisión de las búsquedas, es importante comprender cómo afectan los sinónimos a la latencia para que puedas optimizarlo.

Una regla general para los sinónimos es: cuantos más términos de la consulta coincidan y se amplíen con sinónimos, mayor será el impacto potencial en la latencia. Otros factores que afectan la latencia incluyen el tamaño medio de los documentos indexados, el tamaño del índice, cualquier filtrado de los resultados de búsqueda y la carga general de suAmazon Kendraíndice. Las consultas que no coinciden con ningún sinónimo no se ven afectadas.

Una guía general sobre cómo los sinónimos afectan la latencia:

Caso de uso Aumento de la latencia*
Consultas típicas de palabras clave o lenguaje natural de 3 a 5 palabras cada una Menor del 15 por ciento
1 término de consulta se expande a 3 sinónimos
Índice de unos 500.000 documentos (con un promedio de 10,48 KB de texto extraído por documento) o 30.000 preguntas frecuentes y pares de preguntas

*El rendimiento varía según el uso específico de sinónimos y configuraciones de su índice. Lo mejor es probar el rendimiento de las búsquedas para obtener puntos de referencia más precisos para su caso de uso específico.

Si su tesauro es grande, tiene una relación de expansión a largo plazo y su aumento de latencia no está dentro de los límites aceptables, puede probar uno o ambos de los siguientes procedimientos:

  • Recorta tu diccionario de sinónimos para reducir la tasa de expansión (número de sinónimos por término).

  • Recorte la cobertura general de los términos (número de líneas en tu diccionario de sinónimos).

Como alternativa, puede aumentar la capacidad de aprovisionamiento (unidades de almacenamiento virtual) para compensar el aumento de latencia.