Mengkonfigurasi robots.txt file untuk Amazon Kendra Web Crawler - Amazon Kendra

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengkonfigurasi robots.txt file untuk Amazon Kendra Web Crawler

Amazon Kendra adalah layanan pencarian cerdas yang digunakan AWS pelanggan untuk mengindeks dan mencari dokumen pilihan mereka. Untuk mengindeks dokumen di web, pelanggan dapat menggunakan Amazon Kendra Web Crawler, yang menunjukkan URL mana yang harus diindeks dan parameter operasional lainnya. Amazon Kendra pelanggan diharuskan untuk mendapatkan otorisasi sebelum mengindeks situs web tertentu.

Amazon Kendra Web Crawler menghormati arahan robots.txt standar seperti dan. Allow Disallow Anda dapat memodifikasi robots.txt file situs web Anda untuk mengontrol bagaimana Amazon Kendra Web Crawler merayapi situs web Anda.

Mengkonfigurasi bagaimana Amazon Kendra Web Crawler mengakses situs web Anda

Anda dapat mengontrol bagaimana Amazon Kendra Web Crawler mengindeks situs web Anda menggunakan Allow dan Disallow arahan. Anda juga dapat mengontrol halaman web mana yang diindeks dan halaman web mana yang tidak dirayapi.

Untuk mengizinkan Amazon Kendra Web Crawler merayapi semua halaman web kecuali halaman web yang tidak diizinkan, gunakan arahan berikut:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages

Untuk mengizinkan Amazon Kendra Web Crawler merayapi hanya halaman web tertentu, gunakan arahan berikut:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages

Untuk memungkinkan Amazon Kendra Web Crawler merayapi semua konten situs web dan melarang perayapan untuk robot lain, gunakan arahan berikut:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Menghentikan Amazon Kendra Web Crawler dari merayapi situs web Anda

Anda dapat menghentikan Amazon Kendra Web Crawler dari mengindeks situs web Anda menggunakan arahan. Disallow Anda juga dapat mengontrol halaman web mana yang dirayapi dan mana yang tidak.

Untuk menghentikan Amazon Kendra Web Crawler merayapi situs web, gunakan arahan berikut:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages

Amazon Kendra Web Crawler juga mendukung robot noindex dan nofollow arahan dalam meta tag di halaman HTML. Arahan ini menghentikan perayap web dari mengindeks halaman web dan berhenti mengikuti tautan apa pun di halaman web. Letakkan tanda meta di bagian dokumen untuk menentukan aturan robot.

Misalnya, halaman web di bawah ini mencakup arahan robot noindex dannofollow:

<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>

Jika Anda memiliki pertanyaan atau kekhawatiran tentang Amazon Kendra Web Crawler, Anda dapat menghubungi tim AWS dukungan.