Creazione di un file del thesaurus - Amazon Kendra

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di un file del thesaurus

Un file Amazon Kendra del thesaurus è un file con codifica UTF-8 contenente un elenco di sinonimi nel formato di elenco dei sinonimi Solr. Il file del thesaurus deve pesare meno di 5 MB.

Esistono due modi per specificare le mappature dei sinonimi:

  • I sinonimi bidirezionali vengono specificati come elenco di termini separati da virgole. Se l'utente esegue una query su uno qualsiasi dei termini, tutti i termini dell'elenco vengono utilizzati per la ricerca nei documenti, incluso il termine originale interrogato.

  • I sinonimi unidirezionali sono specificati come termini separati dal simbolo «=>» tra di loro per associare i termini ai rispettivi sinonimi. Se l'utente cerca un termine a sinistra del simbolo «=>», viene mappato a un termine a destra per cercare documenti utilizzando il sinonimo. Non è mappato viceversa, il che lo rende unidirezionale.

I sinonimi stessi fanno distinzione tra maiuscole e minuscole, ma i termini a cui mappano non fanno distinzione tra maiuscole e minuscole. Ad esempio, ML => Machine Learning significa che se l'utente richiede «ML» o «ml» o utilizza altre maiuscole, verrà mappato a «Machine Learning». Se dovessi mapparlo viceversaMachine Learning => ML, allora «Machine Learning» o «machine learning» o qualche altro caso verrebbero mappati a «ML».

Un sinonimo non cerca una corrispondenza esatta su caratteri speciali. Ad esempio, se cerchi "dead-letter-queue«, Amazon Kendra puoi restituire documenti che corrispondono a «dead letter queue» (senza trattino). Se i documenti contengono trattini, ad esempio "dead-letter-queue«, Amazon Kendra elabora i documenti durante la ricerca per rimuovere i trattini. Per i sinonimi generici in inglese incorporati Amazon Kendra e che non devono essere inclusi in un file del thesaurus, Amazon Kendra puoi cercare sia nella versione con trattino del termine che nella versione senza trattini del termine. Ad esempio, se cerchi «terze parti» e «terze parti», Amazon Kendra restituisce documenti che corrispondono a entrambe le versioni di tali termini.

Per i sinonimi che contengono stopword o parole di uso comune, Amazon Kendra restituisce documenti che corrispondono a termini, compresi i stopword. Ad esempio, puoi creare una regola per i sinonimi per mappare «on boarding» e «onboarding». Non è possibile utilizzare solo le parole chiave per i sinonimi. Ad esempio, se si cerca «on», Amazon Kendra non è possibile restituire tutti i documenti che contengono «on».

Alcune regole relative ai sinonimi vengono ignorate. Ad esempio, a => b è una regola, ma a => a viene ignorata e non conta come regola.

Il conteggio dei termini è il numero di termini univoci nel file theaurus. Il file di esempio seguente include terminiAWS CodeStar,ML, Machine Learning autoscaling groupASG, e altro.

È previsto un numero massimo di regole relative ai sinonimi per thesaurus e un numero massimo di sinonimi per termine. Per ulteriori informazioni, consulta Quote per Amazon Kendra.

L'esempio seguente mostra un file del thesaurus con regole relative ai sinonimi. Ogni riga contiene una singola regola per i sinonimi. Le righe e i commenti vuoti vengono ignorati.

# Lines starting with pound are comments and blank lines are ignored. # Synonym relationships can be defined as unidirectional or bidirectional relationships. # Unidirection relationships are represented by any term sequence # on the left hand side (LHS) of "=>" followed by synonyms on the right hand side (RHS) CodeStar => AWS CodeStar # This will map CodeStar to AWS CodeStar, but not vice-versa # To map terms vice versa ML => Machine Learning Machine Learning => ML # Multiple synonym relationships may be defined in one line as well by comma seperation. autoscaling group, ASG => Auto Scaling group, autoscaling # The above is equivalent to: # autoscaling group => Auto Scaling group, autoscaling # ASG => Auto Scaling group, autoscaling # Bi-directional synonyms are comma separated terms with no "=>" DNS, Route53, Route 53 # DNS, Route53, and Route 53 map to one another and are interchangeable at match time # The above is equivalent to: # DNS => Route53, Route 53 # Route53 => DNS, Route 53 # Route 53 => DNS, Route53 # Overlapping LHS terms will be merged Beta => Alpha Beta => Gamma Beta, Delta # is equivalent to: # Beta => Alpha, Gamma, Delta # Delta => Beta # Each line contains a single synonym rule. # Synonym rule count is the total number of lines defining synonym relationships # Term count is the total number of unique terms for all rules. # Comments and blanks lines do not count.