Pengindeksan Faset Pengolahan Teks Menyortir Hasil Permintaan Pencarian

Cara Kerja Pencarian

Pengumpulan data yang ingin Anda cari (kadang-kadang disebut sebagai korpus Anda) dapat terdiri dari dokumen teks lengkap yang tidak terstruktur, dokumen semi-terstruktur seperti yang diformat dalam bahasa mark-up seperti XHTML, atau data terstruktur yang sesuai dengan model data yang ketat. Setiap item yang ingin Anda cari (seperti posting forum atau halaman web) direpresentasikan sebagai dokumen. Setiap dokumen memiliki ID unik dan satu atau beberapa bidang yang berisi data yang ingin Anda cari dan sertakan dalam hasil.

Untuk membuat data Anda dapat ditelusuri, Anda merepresentasikannya sebagai kumpulan dokumen dalam JSON atau XHTML dan mengunggah batch ke domain pencarian Anda. Amazon CloudSearch kemudian menghasilkan indeks pencarian dari data dokumen Anda sesuai dengan opsi konfigurasi domain Anda. Anda mengirimkan kueri terhadap indeks ini untuk menemukan dokumen yang memenuhi kriteria penelusuran tertentu.

Saat data Anda berubah, Anda mengirimkan pembaruan untuk menambah, mengubah, atau menghapus dokumen dari indeks Anda. Pembaruan diterapkan terus menerus sesuai urutan penerimaannya.

Untuk informasi tentang cara memformat data Anda, lihatMempersiapkan Data Anda.

Pengindeksan di Amazon CloudSearch

Untuk membuat indeks penelusuran dari data Anda, Amazon CloudSearch memerlukan informasi berikut:

Bidang dokumen mana yang ingin Anda cari?
Nilai bidang dokumen mana yang ingin Anda ambil dengan hasil pencarian?
Bidang dokumen mana yang mewakili kategori yang ingin Anda gunakan untuk menyempurnakan dan memfilter hasil pencarian?
Bagaimana seharusnya teks dalam bidang tertentu diproses?

Anda menentukan metadata ini dalam konfigurasi domain Anda dengan mengonfigurasi opsi pengindeksan. Anda menggunakan opsi pengindeksan untuk menentukan bidang yang disertakan dalam indeks pencarian dan mengontrol bagaimana Anda dapat menggunakan bidang tersebut.

Anda harus mengonfigurasi bidang indeks yang sesuai untuk setiap bidang dokumen yang terjadi dalam data Anda—ada one-to-one pemetaan antara bidang dokumen dan bidang dalam indeks Amazon Anda. CloudSearch Selain nama bidang indeks, Anda menentukan yang berikut:

Jenis bidang indeks
Apakah bidang dapat dicari (textdan text-array bidang selalu dapat dicari)
Apakah bidang dapat digunakan sebagai kategori (facet)
Apakah nilai bidang dapat dikembalikan dengan hasil pencarian
Apakah bidang dapat digunakan untuk mengurutkan hasil
Apakah sorotan dapat dikembalikan untuk bidang
Nilai default untuk digunakan jika tidak ada nilai yang ditentukan dalam data dokumen.

Untuk informasi tentang cara mengonfigurasi bidang indeks untuk Amazon CloudSearch, lihatconfigure indexing options.

Facet adalah bidang indeks yang mewakili kategori yang ingin Anda gunakan untuk menyaring dan memfilter hasil pencarian. Saat mengirimkan permintaan penelusuran ke Amazon CloudSearch, Anda dapat meminta informasi aspek untuk mengetahui berapa banyak klik yang memiliki nilai yang sama dalam satu aspek. Anda dapat menampilkan informasi ini bersama dengan hasil pencarian dan menggunakannya untuk memungkinkan pengguna untuk secara interaktif menyempurnakan pencarian mereka. (Ini sering disebut sebagai navigasi segi atau pencarian segi.)

Sebuah faset dapat berupa bidang tanggal, literal, atau numerik yang mengaktifkan faset dalam konfigurasi domain Anda. Untuk setiap aspek, Amazon CloudSearch menghitung jumlah klik yang memiliki nilai yang sama. Anda dapat menentukan bucket untuk menghitung jumlah faset untuk himpunan bagian tertentu dari nilai faset. Hanya ember yang memiliki kecocokan yang termasuk dalam hasil facet.

Untuk informasi tentang mengonfigurasi aspek, lihat. configure indexing options Untuk informasi tentang penggunaan informasi facet untuk mendukung navigasi faset, lihat. Mendapatkan dan Menggunakan Informasi Facet di Amazon CloudSearch

Pemrosesan Teks di Amazon CloudSearch

Selama pengindeksan, Amazon CloudSearch memproses isi text dan text-array bidang sesuai dengan skema analisis khusus bahasa yang dikonfigurasi untuk bidang tersebut. Skema analisis mengontrol bagaimana teks dinormalisasi, diberi token, dan bertangkai, dan menentukan setiap stopword atau sinonim untuk diperhitungkan selama pengindeksan. Amazon CloudSearch menyediakan skema analisis default untuk setiap bahasa yang didukung. Untuk informasi tentang mengonfigurasi skema analisis kustom, lihatMengkonfigurasi Skema Analisis. Untuk informasi tentang cara Amazon CloudSearch menormalkan dan memberi token teks serta menerapkan opsi teks yang dikonfigurasi saat mengindeks bidang teks dan memproses permintaan pencarian, lihat. Pemrosesan Teks di Amazon CloudSearch

Menyortir Hasil di Amazon CloudSearch

Anda dapat menyesuaikan bagaimana hasil penelusuran diberi peringkat dengan menentukan ekspresi yang menghitung nilai kustom untuk setiap dokumen yang cocok dengan kriteria penelusuran Anda. Misalnya, Anda dapat menentukan ekspresi yang memperhitungkan nilai dalam popularity bidang dokumen serta skor relevansi default yang dihitung oleh Amazon CloudSearch Expressions hanyalah ekspresi numerik yang menggunakan operator dan fungsi numerik standar. Ekspresi dapat referensi int dan double bidang, ekspresi lain, skor relevansi dokumen (_score), serta waktu epoch (_time). Saat Anda mengirimkan permintaan pencarian, Anda menentukan ekspresi yang ingin Anda gunakan untuk mengurutkan hasil pencarian. Anda juga dapat mereferensikan ekspresi dalam kriteria pencarian Anda.

Relevansi dokumen _score menunjukkan seberapa relevan hit pencarian tertentu dengan permintaan pencarian. Untuk menghitung skor relevansi, Amazon CloudSearch memperhitungkan berapa kali istilah pencarian muncul dalam dokumen relatif terhadap dokumen lain dalam indeks.

Untuk informasi tentang cara mengonfigurasi ekspresi untuk domain Anda, lihatMengkonfigurasi Ekspresi.

Permintaan Pencarian di Amazon CloudSearch

Anda mengirimkan permintaan pencarian ke titik akhir pencarian domain Anda sebagai permintaan GET HTTP/HTTPS. Anda dapat menentukan berbagai opsi untuk membatasi pencarian Anda, meminta informasi aspek, mengontrol peringkat, dan menentukan apa yang ingin Anda kembalikan dalam hasil. Anda bisa mendapatkan hasil pencarian di JSON atau XHTML. Secara default, Amazon CloudSearch mengembalikan hasil di JSON.

Saat Anda mengirimkan permintaan pencarian, Amazon CloudSearch melakukan pemrosesan teks pada string pencarian. String pencarian diproses menjadi:

Ubah semua karakter menjadi huruf kecil
Pisahkan string menjadi istilah terpisah pada batas spasi dan tanda baca
Hapus istilah yang ada di daftar stopword untuk bidang yang dicari.
Peta batang dan sinonim sesuai dengan opsi stemming dan sinonim yang dikonfigurasi untuk bidang yang dicari.

Setelah preprocessing ini selesai, Amazon CloudSearch mencari istilah pencarian dalam indeks dan mengidentifikasi semua dokumen yang cocok dengan permintaan. Untuk menghasilkan respons, Amazon CloudSearch memproses daftar klik pencarian ini untuk memfilter dan mengurutkan dokumen yang cocok dan aspek komputasi. Amazon CloudSearch kemudian mengembalikan respons dalam JSON atau XHTML.

Secara default, Amazon CloudSearch mengembalikan hasil penelusuran yang diberi peringkat sesuai dengan _score relevansi hit. Atau, permintaan Anda dapat menentukan bidang indeks atau ekspresi yang ingin Anda gunakan untuk mengurutkan klik. Misalnya, Anda mungkin ingin mengurutkan hits berdasarkan bidang indeks yang berisi harga atau ekspresi yang menghitung popularitas.

Untuk informasi selengkapnya tentang penelusuran, peringkat, dan hasil paginasi, lihat. Mencari Data Anda dengan Amazon CloudSearch

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Apa itu Amazon CloudSearch?

Penskalaan Otomatis

Cara Kerja Pencarian

Pengindeksan di Amazon CloudSearch

Aspek di Amazon CloudSearch

Pemrosesan Teks di Amazon CloudSearch

Menyortir Hasil di Amazon CloudSearch

Permintaan Pencarian di Amazon CloudSearch