Adición de sinónimos personalizados a un índice - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Adición de sinónimos personalizados a un índice

Para añadir sinónimos personalizados a un índice, debe especificarlos en un archivo de tesauros. Puede incluir términos específicos de la empresa o especializados al Amazon Kendra usar sinónimos. Los sinónimos genéricos en inglésleader, head, como, están integrados Amazon Kendra y no deben incluirse en un archivo de tesauros, incluidos los sinónimos genéricos que utilizan guiones. Amazon Kendra admite sinónimos para todos los tipos de respuesta, incluidos los tipos de DOCUMENT respuesta QUESTION_ANSWER o ANSWER tipos de respuesta. Amazon Kendra actualmente no admite la adición de sinónimos marcados como palabras inútiles. Esto se incluirá en una versión futura.

Amazon Kendra establece correlaciones entre sinónimos. Por ejemplo, al usar el par de sinónimosDynamo, Amazon DynamoDB, Amazon Kendra correlaciona Dynamo con. Amazon DynamoDB La pregunta “¿Qué es la dinamo?” a continuación, devuelve un documento como «¿Qué es Amazon DynamoDB?». Con los sinónimos, Amazon Kendra puede detectar la correlación más fácilmente.

El archivo de sinónimos es un archivo de texto almacenado en un Amazon S3 depósito. Consulte Adición de un tesauro a un índice.

El archivo de sinónimos utiliza el formato de sinónimos de Solr. Amazon Kendra tiene un límite en el número de tesauros por índice. Consulte las cuotas.

Los sinónimos pueden ser útiles en las siguientes situaciones:

  • Términos especializados que no son sinónimos tradicionales en inglés, como NLP, Natural Language Processing.

  • Sustantivos propios con asociaciones semánticas complejas. Estos son sustantivos que es poco probable que el público en general comprenda, por ejemplo, en el machine learning, cost, loss, model performance.

  • Diferentes formas de nombres de productos, por ejemplo, Elastic Compute Cloud, EC2.

  • Términos específicos de un dominio o de una empresa, como nombres de productos. Por ejemplo, Route53, DNS.

No utilice sinónimos en las siguientes situaciones:

  • Sinónimos genéricos en inglés, como leader, head. Estos sinónimos no son específicos de un dominio y el uso de sinónimos en estos escenarios puede tener efectos no deseados.

  • Errores tipográficos como teh => the.

  • Variantes morfológicas como los plurales y posesivos de los sustantivos, la forma comparativa y superlativa de los adjetivos y el tiempo pasado, el participio pasado y la forma progresiva de los verbos. Un ejemplo de adjetivos comparativos y superlativos es good, better, best.

  • Unigrama (palabra única): palabras que detienen palabras como WHO. Las palabras paralizantes de Unigram no están permitidas en el tesauro y se excluyen de la búsqueda. Por ejemplo, WHO => World Health Organization se rechaza. Sin embargo, puede usar W.H.O. como sinónimo y puede usar palabras vacías como parte de un sinónimo de varias palabras. Por ejemplo, of está permitido, pero United States of America no.

Los sinónimos personalizados facilitan la comprensión Amazon Kendra de la terminología específica de su empresa al ampliar las consultas para incluir los sinónimos específicos de su empresa. Si bien los sinónimos pueden mejorar la precisión de las búsquedas, es importante entender cómo afectan a la latencia para poder optimizarlos.

Una regla general para los sinónimos es: cuantos más términos de la consulta coincidan y se expandan con sinónimos, mayor será el impacto potencial en la latencia. Otros factores que afectan a la latencia son el tamaño medio de los documentos indexados, el tamaño del índice, los posibles filtros en los resultados de búsqueda y la carga total del índice. Amazon Kendra Las consultas que no coincidan con ningún sinónimo no se ven afectadas.

Una guía general sobre cómo los sinónimos afectan a la latencia:

Caso de uso Aumento de la latencia*
Consultas típicas de lenguaje natural o palabras clave de 3 a 5 palabras cada una Menos del 15 %
Un término de consulta se amplía a 3 sinónimos
Índice de unos 500 000 documentos (con un promedio de 10,48 KB de texto extraído por documento) o 30 000 pares de preguntas frecuentes y preguntas

* El rendimiento varía en función del uso específico de los sinónimos y las configuraciones del índice. Es mejor probar el rendimiento de las búsquedas para obtener puntos de referencia más precisos para tu caso de uso específico.

Si el tesauro es grande, tiene una tasa de expansión temporal alta y el aumento de la latencia no está dentro de los límites aceptables, puede probar una de las siguientes opciones o ambas:

  • Recorte el tesauro para reducir la relación de expansión (número de sinónimos por término).

  • Reduzca la cobertura general de los términos (número de líneas del tesauro).

Como alternativa, puede aumentar la capacidad de aprovisionamiento (unidades de almacenamiento virtuales) para compensar el aumento de la latencia.