Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon Kendra Perayap Web
Anda dapat menggunakan Amazon Kendra Web Crawler untuk merayapi dan mengindeks halaman web.
Anda hanya dapat merayapi situs web publik atau situs web perusahaan internal yang menggunakan protokol komunikasi aman Hypertext Transfer Protocol Secure (HTTPS). Jika Anda menerima kesalahan saat merayapi situs web, bisa jadi situs web tersebut diblokir dari perayapan. Untuk merayapi situs web internal, Anda dapat mengatur proxy web. Proxy web harus menghadap publik. Anda juga dapat menggunakan otentikasi untuk mengakses dan merayapi situs web.
Saat memilih situs web untuk diindeks, Anda harus mematuhi Kebijakan Penggunaan yang Diterima Amazon
catatan
Menyalahgunakan Amazon Kendra Web Crawler untuk secara agresif merayapi situs web atau halaman web yang tidak Anda miliki dianggap penggunaan yang dapat diterima.
Amazon Kendra memiliki dua versi web crawler konektor. Fitur yang didukung dari setiap versi meliputi:
Amazon Kendra Konektor Web Crawler v1.0 /API WebCrawlerConfiguration
-
Proksi web
-
Filter inklusi/pengecualian
Amazon Kendra Konektor Web Crawler v2.0/API TemplateConfiguration
-
Pemetaan lapangan
-
Filter inklusi/pengecualian
-
Sinkronisasi konten penuh dan tambahan
-
Proksi web
-
Dasar, NTLM/Kerberos, SAMP, dan otentikasi formulir untuk situs web Anda
-
Cloud privat virtual (VPC)
penting
Pembuatan konektor Web Crawler v2.0 tidak didukung oleh. AWS CloudFormation Gunakan konektor Web Crawler v1.0 jika Anda memerlukan AWS CloudFormation dukungan.
Untuk memecahkan masalah konektor sumber data crawler Amazon Kendra web Anda, lihat. Mengatasi masalah sumber data