Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Eine Thesaurusdatei erstellen
Eine Amazon Kendra Thesaurus-Datei ist eine UTF-8-kodierte Datei, die eine Liste von Synonymen im Solr-Synonymlistenformat enthält. Die Thesaurus-Datei muss weniger als 5 MB groß sein.
Es gibt zwei Möglichkeiten, Synonymzuordnungen anzugeben:
-
Bidirektionale Synonyme werden als kommagetrennte Liste von Begriffen angegeben. Wenn Ihr Benutzer einen der Begriffe abfragt, werden alle Begriffe in der Liste für die Suche nach Dokumenten verwendet, einschließlich des ursprünglich abgefragten Begriffs.
-
Unidirektionale Synonyme werden als Begriffe angegeben, die durch das Symbol „=>“ voneinander getrennt werden, um Begriffe ihren Synonymen zuzuordnen. Wenn Ihr Benutzer einen Begriff links neben dem Symbol „=>“ abfragt, wird er einem Begriff auf der rechten Seite zugeordnet, um nach Dokumenten zu suchen, die das Synonym verwenden. Es wird nicht umgekehrt zugeordnet, sodass es unidirektional ist.
Bei den Synonymen selbst wird Groß- und Kleinschreibung beachtet, bei den Begriffen, denen sie zugeordnet werden, wird jedoch nicht zwischen Groß- und Kleinschreibung unterschieden. ML => Machine Learning
Das heißt, wenn Ihr Benutzer „ML“ oder „ml“ abfragt oder eine andere Groß- und Kleinschreibung verwendet, wird dies „Machine Learning“ zugeordnet. Wenn Sie dies umgekehrt abbilden würdenMachine Learning => ML
, dann würden „Machine Learning“ oder „Machine Learning“ oder ein anderer Fall „ML“ zugeordnet.
Ein Synonym sucht nicht nach einer exakten Übereinstimmung bei Sonderzeichen. Wenn Sie beispielsweise nach "" dead-letter-queue suchen, Amazon Kendra können Dokumente zurückgegeben werden, die dem Begriff „Warteschlange für tote Briefe“ entsprechen (kein Bindestrich). Wenn Ihre Dokumente Bindestriche enthalten, z. B. "dead-letter-queue„, Amazon Kendra verarbeitet die Dokumente während der Suche, um Bindestriche zu entfernen. Nach allgemeinen englischen Synonymbegriffen, die in eine Thesaurusdatei integriert sind Amazon Kendra und nicht in einer Thesaurusdatei enthalten sein sollten, Amazon Kendra können Sie sowohl nach der Version mit Bindestrich als auch nach der Version ohne Bindestrich suchen. Wenn Sie beispielsweise nach „Drittanbieter“ und „Drittanbieter“ suchen, werden Dokumente Amazon Kendra zurückgegeben, die einer der beiden Versionen dieser Begriffe entsprechen.
Bei Synonymen, die Stoppwörter oder häufig verwendete Wörter enthalten, werden Dokumente Amazon Kendra zurückgegeben, die Begriffen, einschließlich Stoppwörtern, entsprechen. Sie können beispielsweise eine Synonymregel erstellen, um „Onboarding“ und „Onboarding“ zuzuordnen. Sie können Stoppwörter nicht allein für Synonyme verwenden. Wenn Sie beispielsweise nach „on“ suchen, Amazon Kendra können nicht alle Dokumente zurückgegeben werden, die „on“ enthalten.
Einige Synonymregeln werden ignoriert. a => b
Ist zum Beispiel eine Regel, a => a
wird aber ignoriert und zählt nicht als Regel.
Die Anzahl der Begriffe ist die Anzahl der eindeutigen Begriffe in der Theaurus-Datei. Die folgende Beispieldatei enthält BegriffeAWS CodeStar
,ML
,Machine Learning
, autoscaling group
ASG
, und mehr.
Es gibt eine maximale Anzahl von Synonymregeln pro Thesaurus und eine maximale Anzahl von Synonymen pro Begriff. Weitere Informationen finden Sie unter Kontingente für Amazon Kendra.
Das folgende Beispiel zeigt eine Thesaurusdatei mit Synonymregeln. Jede Zeile enthält eine einzelne Synonymregel. Leerzeilen und Kommentare werden ignoriert.
# Lines starting with pound are comments and blank lines are ignored. # Synonym relationships can be defined as unidirectional or bidirectional relationships. # Unidirection relationships are represented by any term sequence # on the left hand side (LHS) of "=>" followed by synonyms on the right hand side (RHS) CodeStar => AWS CodeStar # This will map CodeStar to AWS CodeStar, but not vice-versa # To map terms vice versa ML => Machine Learning Machine Learning => ML # Multiple synonym relationships may be defined in one line as well by comma seperation. autoscaling group, ASG => Auto Scaling group, autoscaling # The above is equivalent to: # autoscaling group => Auto Scaling group, autoscaling # ASG => Auto Scaling group, autoscaling # Bi-directional synonyms are comma separated terms with no "=>" DNS, Route53, Route 53 # DNS, Route53, and Route 53 map to one another and are interchangeable at match time # The above is equivalent to: # DNS => Route53, Route 53 # Route53 => DNS, Route 53 # Route 53 => DNS, Route53 # Overlapping LHS terms will be merged Beta => Alpha Beta => Gamma Beta, Delta # is equivalent to: # Beta => Alpha, Gamma, Delta # Delta => Beta # Each line contains a single synonym rule. # Synonym rule count is the total number of lines defining synonym relationships # Term count is the total number of unique terms for all rules. # Comments and blanks lines do not count.