Membuat file tesaurus - Amazon Kendra

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat file tesaurus

File Amazon Kendra TESAURUS adalah file yang dikodekan UTF-8 yang berisi daftar sinonim dalam format daftar sinonim Solr. File tesaurus harus kurang dari 5 MB.

Ada dua cara untuk menentukan pemetaan sinonim:

  • Sinonim dua arah ditetapkan sebagai daftar istilah yang dipisahkan koma. Jika pengguna Anda menanyakan salah satu istilah, maka semua istilah dalam daftar digunakan untuk mencari dokumen, yang mencakup istilah kueri asli.

  • Sinonim searah ditentukan sebagai istilah yang dipisahkan oleh simbol “=>” di antara mereka untuk memetakan istilah ke sinonimnya. Jika pengguna Anda menanyakan istilah di sebelah kiri simbol “=>”, maka itu dipetakan ke istilah di sebelah kanan untuk mencari dokumen menggunakan sinonim. Itu tidak dipetakan sebaliknya, membuat ini searah.

Sinonim itu sendiri peka huruf besar/kecil, tetapi istilah yang mereka petakan tidak peka huruf besar/kecil. Misalnya, ML => Machine Learning jika pengguna Anda menanyakan “ML” atau “mL” atau menggunakan beberapa kasus lain, itu akan dipetakan ke “Machine Learning”. Jika Anda memetakan ini sebaliknyaMachine Learning => ML, maka “Machine Learning” atau “machine learning” atau kasus lain akan dipetakan ke “ML”.

Sinonim tidak mencari kecocokan persis pada karakter khusus. Misalnya, jika Anda mencari "dead-letter-queue“, Amazon Kendra dapat mengembalikan dokumen yang cocok dengan “antrian surat mati” (tidak ada tanda hubung). Jika dokumen Anda berisi tanda hubung, seperti "dead-letter-queue“, Amazon Kendra proses dokumen selama pencarian untuk menghapus tanda hubung. Untuk istilah sinonim bahasa Inggris generik yang dibangun ke dalam Amazon Kendra dan tidak boleh dimasukkan dalam file tesaurus, Amazon Kendra dapat mencari versi tanda hubung dari istilah dan versi non-tanda hubung dari istilah tersebut. Misalnya, jika Anda mencari “pihak ketiga” dan “pihak ketiga”, Amazon Kendra mengembalikan dokumen yang cocok dengan salah satu versi istilah tersebut.

Untuk sinonim yang berisi stopword atau kata yang umum digunakan, Amazon Kendra mengembalikan dokumen yang cocok dengan istilah termasuk stopword. Misalnya, Anda dapat membuat aturan sinonim untuk memetakan “saat naik pesawat” dan “orientasi”. Anda tidak dapat menggunakan stopwords sendirian untuk sinonim. Misalnya, jika Anda mencari “on”, Amazon Kendra tidak dapat mengembalikan semua dokumen yang berisi “on”.

Beberapa aturan sinonim diabaikan. Misalnya, a => b adalah aturan, tetapi a => a diabaikan dan tidak dihitung sebagai aturan.

Jumlah istilah adalah jumlah istilah unik dalam file theaurus. Contoh file di bawah ini mencakup istilahAWS CodeStar,ML,Machine Learning,autoscaling group,ASG, dan banyak lagi.

Ada jumlah maksimum aturan sinonim per tesaurus dan jumlah maksimum sinonim per istilah. Untuk informasi selengkapnya, lihat Kuota untuk Amazon Kendra.

Contoh berikut menunjukkan file tesaurus dengan aturan sinonim. Setiap baris berisi aturan sinonim tunggal. Baris kosong dan komentar diabaikan.

# Lines starting with pound are comments and blank lines are ignored. # Synonym relationships can be defined as unidirectional or bidirectional relationships. # Unidirection relationships are represented by any term sequence # on the left hand side (LHS) of "=>" followed by synonyms on the right hand side (RHS) CodeStar => AWS CodeStar # This will map CodeStar to AWS CodeStar, but not vice-versa # To map terms vice versa ML => Machine Learning Machine Learning => ML # Multiple synonym relationships may be defined in one line as well by comma seperation. autoscaling group, ASG => Auto Scaling group, autoscaling # The above is equivalent to: # autoscaling group => Auto Scaling group, autoscaling # ASG => Auto Scaling group, autoscaling # Bi-directional synonyms are comma separated terms with no "=>" DNS, Route53, Route 53 # DNS, Route53, and Route 53 map to one another and are interchangeable at match time # The above is equivalent to: # DNS => Route53, Route 53 # Route53 => DNS, Route 53 # Route 53 => DNS, Route53 # Overlapping LHS terms will be merged Beta => Alpha Beta => Gamma Beta, Delta # is equivalent to: # Beta => Alpha, Gamma, Delta # Delta => Beta # Each line contains a single synonym rule. # Synonym rule count is the total number of lines defining synonym relationships # Term count is the total number of unique terms for all rules. # Comments and blanks lines do not count.