Hinzufügen von benutzerdefinierten Synonymen zu einem Index - Amazon Kendra

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Hinzufügen von benutzerdefinierten Synonymen zu einem Index

Um benutzerdefinierte Synonyme zu einem Index hinzuzufügen, geben Sie sie in einer Thesaurusdatei an. Sie können geschäftsspezifische oder spezielle Begriffe in Amazon Kendra die Verwendung von Synonymen einbeziehen. Generische englische Synonyme, wie z. B.leader, head, sind in eine Thesaurusdatei integriert Amazon Kendra und sollten nicht in einer Thesaurusdatei enthalten sein. Dies gilt auch für generische Synonyme, die Bindestriche verwenden. Amazon Kendra unterstützt Synonyme für alle Antworttypen, einschließlich DOCUMENT Antworttypen und/oder Antworttypen. QUESTION_ANSWER ANSWER Amazon Kendra unterstützt derzeit nicht das Hinzufügen von Synonymen, die als Stoppwörter gekennzeichnet sind. Dies soll in einer future Version enthalten sein.

Amazon Kendra stellt Korrelationen zwischen Synonymen her. Wenn Sie beispielsweise das Synonympaar verwendenDynamo, Amazon DynamoDB, Amazon Kendra korreliert Dynamo mit. Amazon DynamoDB Die Abfrage „Was ist Dynamo?“ gibt dann ein Dokument wie „Was ist Amazon DynamoDB?“ zurück. Bei Synonymen Amazon Kendra kann die Korrelation leichter erkannt werden.

Die Thesaurus-Datei ist eine Textdatei, die in einem Amazon S3 Bucket gespeichert ist. Siehe Einen Thesaurus zu einem Index hinzufügen.

Die Thesaurus-Datei verwendet das Solr-Synonymformat. Amazon Kendra hat eine Obergrenze für die Anzahl der Thesauri pro Index. Siehe Kontingente.

Synonyme können in den folgenden Szenarien nützlich sein:

  • Fachbegriffe, bei denen es sich nicht um traditionelle Synonyme in englischer Sprache handelt, wie NLP, Natural Language Processing z.

  • Eigennamen mit komplexen semantischen Assoziationen. Dies sind Substantive, die die breite Öffentlichkeit wahrscheinlich nicht verstehen wird, beispielsweise beim maschinellen Lernen. cost, loss, model performance

  • Verschiedene Formen von Produktnamen, zum BeispielElastic Compute Cloud, EC2.

  • Domainspezifische oder geschäftsspezifische Begriffe wie Produktnamen. z. B. Route53, DNS.

Verwenden Sie in den folgenden Szenarien keine Synonyme:

  • Generische Synonyme in englischer Sprache wieleader, head. Diese Synonyme sind nicht domänenspezifisch, und die Verwendung von Synonymen in diesen Szenarien kann unbeabsichtigte Auswirkungen haben.

  • Tippfehler wie. teh => the

  • Morphologische Varianten wie die Pluralformen und Possessiven von Substantiven, die Vergleichs- und Superlativform von Adjektiven sowie die Vergangenheitsform, das Partizip und die progressive Form von Verben. Ein Beispiel für komparative und superlative Adjektive ist. good, better, best

  • Unigram (einzelnes Wort) Stoppwörter wie. WHO Unigram-Stoppwörter sind im Thesaurus nicht zulässig und werden von der Suche ausgeschlossen. Wird beispielsweise abgelehnt. WHO => World Health Organization Sie können W.H.O. jedoch einen synonymen Begriff verwenden, und Sie können Stoppwörter als Teil eines Synonyms mit mehreren Wörtern verwenden. Zum Beispiel ist das nicht erlaubt, of wird aber akzeptiert. United States of America

Mit benutzerdefinierten Synonymen können Sie Ihr Verständnis Ihrer unternehmensspezifischen Terminologie auf einfache Weise verbessern Amazon Kendra, indem Sie Ihre Abfragen auf Ihre unternehmensspezifischen Synonyme ausweiten. Auch wenn Synonyme die Suchgenauigkeit verbessern können, ist es wichtig zu verstehen, wie sich Synonyme auf die Latenz auswirken, damit Sie Ihre Suche entsprechend optimieren können.

Eine allgemeine Regel für Synonyme lautet: Je mehr Begriffe in Ihrer Abfrage mit Synonymen abgeglichen und erweitert werden, desto größer ist die potenzielle Auswirkung auf die Latenz. Andere Faktoren, die sich auf die Latenz auswirken, sind die durchschnittliche Größe der indexierten Dokumente, die Größe Ihres Indexes, jegliche Filterung der Suchergebnisse und die Gesamtauslastung Ihres Amazon Kendra Index. Abfragen, die mit keinem Synonym übereinstimmen, sind nicht betroffen.

Eine allgemeine Richtlinie dazu, wie sich Synonyme auf die Latenz auswirken:

Anwendungsfall Erhöhung der Latenz*
Typische Abfragen in natürlicher Sprache oder nach Schlüsselwörtern mit jeweils 3 bis 5 Wörtern Weniger als 15 Prozent
Ein Suchbegriff wird zu 3 Synonymen erweitert
Index von etwa 500.000 Dokumenten (durchschnittlich 10,48 KB extrahierter Text pro Dokument) oder 30.000 FAQ/Fragenpaaren

* Die Leistung hängt von Ihrer spezifischen Verwendung von Synonymen und Konfigurationen in Ihrem Index ab. Es empfiehlt sich, die Suchleistung zu testen, um genauere Benchmarks für Ihren speziellen Anwendungsfall zu erhalten.

Wenn Ihr Thesaurus groß ist, ein hohes Term-Expansionsverhältnis aufweist und Ihre Latenzzunahme nicht innerhalb akzeptabler Grenzen liegt, können Sie eine oder beide der folgenden Möglichkeiten ausprobieren:

  • Kürzen Sie Ihren Thesaurus, um das Expansionsverhältnis (Anzahl der Synonyme pro Begriff) zu verringern.

  • Reduzieren Sie die Gesamtabdeckung der Begriffe (Anzahl der Zeilen in Ihrem Thesaurus).

Alternativ können Sie die Bereitstellungskapazität (virtuelle Speichereinheiten) erhöhen, um den Anstieg der Latenz auszugleichen.