Mengkonfigurasi bagaimana Amazon Kendra Web Crawler mengakses situs web Anda Menghentikan Amazon Kendra Web Crawler dari merayapi situs web Anda

Mengkonfigurasi `robots.txt` file untuk Amazon Kendra Web Crawler

Amazon Kendra adalah layanan pencarian cerdas yang digunakan AWS pelanggan untuk mengindeks dan mencari dokumen pilihan mereka. Untuk mengindeks dokumen di web, pelanggan dapat menggunakan Amazon Kendra Web Crawler, yang menunjukkan URL mana yang harus diindeks dan parameter operasional lainnya. Amazon Kendra pelanggan diharuskan untuk mendapatkan otorisasi sebelum mengindeks situs web tertentu.

Amazon Kendra Web Crawler menghormati arahan robots.txt standar seperti dan. Allow Disallow Anda dapat memodifikasi robots.txt file situs web Anda untuk mengontrol bagaimana Amazon Kendra Web Crawler merayapi situs web Anda.

Mengkonfigurasi bagaimana Amazon Kendra Web Crawler mengakses situs web Anda

Anda dapat mengontrol bagaimana Amazon Kendra Web Crawler mengindeks situs web Anda menggunakan Allow dan Disallow arahan. Anda juga dapat mengontrol halaman web mana yang diindeks dan halaman web mana yang tidak dirayapi.

Untuk mengizinkan Amazon Kendra Web Crawler merayapi semua halaman web kecuali halaman web yang tidak diizinkan, gunakan arahan berikut:


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Disallow: /credential-pages/ # disallow access to specific pages

Untuk mengizinkan Amazon Kendra Web Crawler merayapi hanya halaman web tertentu, gunakan arahan berikut:


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Allow: /pages/ # allow access to specific pages

Untuk memungkinkan Amazon Kendra Web Crawler merayapi semua konten situs web dan melarang perayapan untuk robot lain, gunakan arahan berikut:


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Menghentikan Amazon Kendra Web Crawler dari merayapi situs web Anda

Anda dapat menghentikan Amazon Kendra Web Crawler dari mengindeks situs web Anda menggunakan arahan. Disallow Anda juga dapat mengontrol halaman web mana yang dirayapi dan mana yang tidak.

Untuk menghentikan Amazon Kendra Web Crawler merayapi situs web, gunakan arahan berikut:


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Disallow: / # disallow access to any pages

Jika Anda memiliki pertanyaan atau kekhawatiran tentang Amazon Kendra Web Crawler, Anda dapat menghubungi tim AWS dukungan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Amazon Kendra Konektor Web Crawler v2.0

Kotak

Mengkonfigurasi robots.txt file untuk Amazon Kendra Web Crawler

Mengkonfigurasi bagaimana Amazon Kendra Web Crawler mengakses situs web Anda

Menghentikan Amazon Kendra Web Crawler dari merayapi situs web Anda

Mengkonfigurasi `robots.txt` file untuk Amazon Kendra Web Crawler