Fitur yang didukung Prasyarat Instruksi koneksi

Amazon Kendra Konektor Web Crawler v2.0

Anda dapat menggunakan Amazon Kendra Web Crawler untuk merayapi dan mengindeks halaman web.

Anda hanya dapat merayapi situs web publik atau situs web perusahaan internal yang menggunakan protokol komunikasi aman Hypertext Transfer Protocol Secure (HTTPS). Jika Anda menerima kesalahan saat merayapi situs web, bisa jadi situs web tersebut diblokir dari perayapan. Untuk merayapi situs web internal, Anda dapat mengatur proxy web. Proxy web harus menghadap publik. Anda juga dapat menggunakan otentikasi untuk mengakses dan merayapi situs web.

Amazon Kendra Web Crawler v2.0 menggunakan paket perayap web Selenium dan driver Chromium. Amazon Kendra secara otomatis memperbarui versi Selenium dan driver Chromium menggunakan Continuous Integration (CI).

Saat memilih situs web untuk diindeks, Anda harus mematuhi Kebijakan Penggunaan yang Diterima Amazon dan semua syarat Amazon lainnya. Ingat bahwa Anda hanya harus menggunakan Amazon Kendra Web Crawler untuk mengindeks halaman web Anda sendiri, atau halaman web yang Anda memiliki otorisasi untuk indeks. Untuk mempelajari cara menghentikan Amazon Kendra Web Crawler dari mengindeks situs web Anda, silakan lihat. Mengkonfigurasi robots.txt file untuk Amazon Kendra Web Crawler . Menyalahgunakan Amazon Kendra Web Crawler untuk secara agresif merayapi situs web atau halaman web yang tidak Anda miliki dianggap penggunaan yang dapat diterima.

Untuk memecahkan masalah konektor sumber data crawler Amazon Kendra web Anda, lihat. Mengatasi masalah sumber data

catatan

Konektor Web Crawler v2.0 tidak mendukung crawling daftar situs web dari AWS KMS bucket terenkripsi. Amazon S3 Ini hanya mendukung enkripsi sisi server dengan Amazon S3 kunci terkelola.

penting

Pembuatan konektor Web Crawler v2.0 tidak didukung oleh. AWS CloudFormation Gunakan konektor Web Crawler v1.0 jika Anda memerlukan AWS CloudFormation dukungan.

Fitur yang didukung

Pemetaan lapangan
Filter inklusi/pengecualian
Sinkronisasi konten penuh dan inkremental
Proksi web
Dasar, NTLM/Kerberos, SAMP, dan otentikasi formulir untuk situs web Anda
Cloud privat virtual (VPC)

Prasyarat

Sebelum Anda dapat menggunakan Amazon Kendra untuk mengindeks situs web Anda, periksa detail situs web dan AWS akun Anda.

Untuk situs web Anda, pastikan Anda memiliki:

Menyalin benih atau peta situs web URLs yang ingin Anda indeks. Anda dapat menyimpan URLs dalam file teks dan mengunggahnya ke Amazon S3 ember. Setiap URL dalam file teks harus diformat pada baris terpisah. Jika Anda ingin menyimpan peta situs Anda dalam sebuah Amazon S3 bucket, pastikan Anda telah menyalin XMLsitemap dan menyimpannya dalam file XHTML. Anda juga dapat memasukkan beberapa file XMLpeta situs ke dalam file ZIP.

catatan
(On-premise/server) Amazon Kendra memeriksa apakah informasi titik akhir yang disertakan sama dengan informasi titik akhir yang AWS Secrets Manager ditentukan dalam detail konfigurasi sumber data Anda. Ini membantu melindungi dari masalah wakil yang membingungkan, yang merupakan masalah keamanan di mana pengguna tidak memiliki izin untuk melakukan tindakan tetapi menggunakan Amazon Kendra sebagai proxy untuk mengakses rahasia yang dikonfigurasi dan melakukan tindakan. Jika nanti Anda mengubah informasi titik akhir Anda, Anda harus membuat rahasia baru untuk menyinkronkan informasi ini.
Untuk situs web yang memerlukan otentikasi dasar, NTLM, atau Kerberos:
- Mencatat kredensi otentikasi situs web Anda, yang mencakup nama pengguna dan kata sandi.
  
  catatan
  Amazon Kendra Web Crawler v2.0 mendukung protokol otentikasi NTLM yang mencakup hashing kata sandi, dan protokol otentikasi Kerberos yang mencakup enkripsi kata sandi.
Untuk situs web yang memerlukan SAMP atau otentikasi formulir login:
- Mencatat kredensi otentikasi situs web Anda, yang mencakup nama pengguna dan kata sandi.
- Menyalin XPaths (XMLPath Language) dari bidang nama pengguna (dan tombol nama pengguna jika menggunakan SAMP), bidang kata sandi dan tombol, dan menyalin URL halaman login. Anda dapat menemukan XPaths elemen menggunakan alat pengembang browser web Anda. XPaths biasanya mengikuti format ini://tagname[@Attribute='Value'].
  
  catatan
  Amazon Kendra Web Crawler v2.0 menggunakan browser Chrome tanpa kepala dan informasi dari formulir untuk mengautentikasi dan mengotorisasi akses dengan URL yang dilindungi 2.0. OAuth
Opsional: Menyalin nama host dan nomor port server proxy web jika Anda ingin menggunakan proxy web untuk terhubung ke situs web internal yang ingin dirayapi. Proxy web harus menghadap publik. Amazon Kendra mendukung koneksi ke server proxy web yang didukung oleh otentikasi dasar atau Anda dapat terhubung tanpa otentikasi.
Opsional: Menyalin ID subnet virtual private cloud (VPC) jika Anda ingin menggunakan VPC untuk terhubung ke situs web internal yang ingin dirayapi. Untuk informasi selengkapnya, lihat Mengonfigurasi file Amazon VPC.
Memeriksa setiap dokumen halaman web yang ingin Anda indeks adalah unik dan di seluruh sumber data lain yang Anda rencanakan untuk digunakan untuk indeks yang sama. Setiap sumber data yang ingin Anda gunakan untuk indeks tidak boleh berisi dokumen yang sama di seluruh sumber data. Dokumen IDs bersifat global untuk indeks dan harus unik per indeks.

Di AWS akun Anda, pastikan Anda memiliki:

Membuat Amazon Kendra indeks dan, jika menggunakan API, mencatat ID indeks.
Membuat IAM peran untuk sumber data Anda dan, jika menggunakan API, catat Nama Sumber Daya Amazon dari IAM peran tersebut.

catatan
Jika Anda mengubah jenis otentikasi dan kredensyal, Anda harus memperbarui IAM peran Anda untuk mengakses ID rahasia yang benar AWS Secrets Manager .
Untuk situs web yang memerlukan otentikasi, atau jika menggunakan proxy web dengan otentikasi, menyimpan kredensyal otentikasi Anda secara AWS Secrets Manager rahasia dan, jika menggunakan API, catat ARN rahasia tersebut.

catatan
Kami menyarankan Anda secara teratur menyegarkan atau memutar kredensyal dan rahasia Anda. Berikan hanya tingkat akses yang diperlukan untuk keamanan Anda sendiri. Kami tidak menyarankan Anda menggunakan kembali kredensyal dan rahasia di seluruh sumber data, dan konektor versi 1.0 dan 2.0 (jika berlaku).

Jika Anda tidak memiliki IAM peran atau rahasia yang ada, Anda dapat menggunakan konsol untuk membuat IAM peran dan Secrets Manager rahasia baru saat Anda menghubungkan sumber web crawler data Anda Amazon Kendra. Jika Anda menggunakan API, Anda harus memberikan ARN IAM peran dan Secrets Manager rahasia yang ada, dan ID indeks.

Instruksi koneksi

Untuk terhubung Amazon Kendra ke sumber web crawler data Anda, Anda harus memberikan rincian yang diperlukan dari sumber web crawler data Anda sehingga Amazon Kendra dapat mengakses data Anda. Jika Anda belum mengkonfigurasi web crawler untuk Amazon Kendra lihatPrasyarat.

Console

Untuk terhubung Amazon Kendra ke web crawler

Masuk ke AWS Management Console dan buka Amazon Kendra konsol.
Dari panel navigasi kiri, pilih Indeks dan kemudian pilih indeks yang ingin Anda gunakan dari daftar indeks.

catatan
Anda dapat memilih untuk mengonfigurasi atau mengedit pengaturan kontrol akses Pengguna Anda di bawah Pengaturan indeks.
Pada halaman Memulai, pilih Tambahkan sumber data.
Pada halaman Tambah sumber data, pilih konektor web crawler, lalu pilih Tambah konektor. Jika menggunakan versi 2 (jika ada), pilih konektor web crawler dengan tag “V2.0".
Pada halaman Tentukan detail sumber data, masukkan informasi berikut:
1. Di Nama dan deskripsi, untuk Nama sumber data —Masukkan nama untuk sumber data Anda. Anda dapat memasukkan tanda hubung tetapi bukan spasi.
2. (Opsional) Deskripsi —Masukkan deskripsi opsional untuk sumber data Anda.
3. Dalam Bahasa default —Pilih bahasa untuk memfilter dokumen Anda untuk indeks. Kecuali Anda menentukan sebaliknya, bahasa default ke bahasa Inggris. Bahasa yang ditentukan dalam metadata dokumen mengesampingkan bahasa yang dipilih.
4. Di Tag, untuk Tambahkan tag baru —Sertakan tag opsional untuk mencari dan memfilter sumber daya Anda atau melacak AWS biaya Anda.
5. Pilih Berikutnya.
Pada halaman Tentukan akses dan keamanan, masukkan informasi berikut:
1. Sumber —Pilih salah satu Sumber URLs, Peta situs Sumber, URLsFile sumber, file peta situs Sumber. Jika Anda memilih untuk menggunakan file teks yang menyertakan daftar hingga 100 seed URLs, Anda menentukan path ke Amazon S3 bucket tempat file Anda disimpan. Jika Anda memilih untuk menggunakan file XMLpeta situs, Anda menentukan path ke Amazon S3 bucket tempat file Anda disimpan. Anda juga dapat memasukkan beberapa file XMLpeta situs ke dalam file ZIP. Jika tidak, Anda dapat memasukkan hingga 10 benih atau titik awal secara manual URLs, dan hingga tiga peta situs URLs.
  
  catatan
  Jika Anda ingin merayapi peta situs, periksa apakah URL dasar atau root sama dengan yang URLs tercantum di halaman peta situs Anda. Misalnya, jika URL peta situs Anda https://example.com/sitemap-page.html, yang URLs tercantum di halaman peta situs ini juga harus menggunakan URL dasar "”. https://example.com/
  
  Jika situs web Anda memerlukan otentikasi untuk mengakses situs web, Anda dapat memilih ether basic, NTLM/Kerberos, SAMP, atau otentikasi formulir. Jika tidak, pilih opsi untuk tidak ada otentikasi.
  
  catatan
  Jika Anda ingin mengedit sumber data nanti untuk mengubah seed Anda URLs dengan otentikasi ke peta situs, Anda harus membuat sumber data baru. Amazon Kendra mengonfigurasi sumber data menggunakan informasi URLs titik akhir benih dalam Secrets Manager rahasia untuk otentikasi, dan oleh karena itu tidak dapat mengonfigurasi ulang sumber data saat mengubah ke peta situs.
  1. AWS Secrets Manager Jika situs web Anda memerlukan otentikasi yang sama untuk mengakses situs web, pilih rahasia yang ada atau buat Secrets Manager rahasia baru untuk menyimpan kredensyal situs web Anda. Jika Anda memilih untuk membuat rahasia baru, jendela AWS Secrets Manager rahasia terbuka.
    
    Jika Anda memilih otentikasi Dasar atau NTML/KerberOS, masukkan nama untuk rahasia, ditambah nama pengguna dan kata sandi. Protokol otentikasi NTLM mencakup hashing kata sandi, dan protokol otentikasi Kerberos mencakup enkripsi kata sandi.
    
    Jika Anda memilih SAMP atau otentikasi Formulir, masukkan nama untuk rahasia, ditambah nama pengguna dan kata sandi. Gunakan XPath untuk bidang nama pengguna (dan XPath untuk tombol nama pengguna jika menggunakan SAFL). Gunakan XPaths untuk bidang kata sandi dan tombol, dan URL halaman login. Anda dapat menemukan XPaths (Bahasa Jalur XHTML) elemen menggunakan alat pengembang browser web Anda. XPaths biasanya mengikuti format ini://tagname[@Attribute='Value'].
2. (Opsional) Web proxy —Masukkan nama host dan nomor port dari proxy sever yang ingin Anda gunakan untuk terhubung ke situs web internal. Misalnya, nama host https://a.example.com/page1.htmladalah "a.example.com" dan nomor port adalah 443, port standar untuk HTTPS. Jika kredensyal proxy web diperlukan untuk terhubung ke host situs web, Anda dapat membuat AWS Secrets Manager yang menyimpan kredensialnya.
3. Virtual Private Cloud (VPC) —Anda dapat memilih untuk menggunakan VPC. Jika demikian, Anda harus menambahkan Subnet dan grup keamanan VPC.
4. IAM peran —Pilih peran yang ada atau buat IAM IAM peran baru untuk mengakses kredensi repositori dan mengindeks konten Anda.
  
  catatan
  IAM peran yang digunakan untuk indeks tidak dapat digunakan untuk sumber data. Jika Anda tidak yakin apakah peran yang ada digunakan untuk indeks atau FAQ, pilih Buat peran baru untuk menghindari kesalahan.
5. Pilih Berikutnya.
Pada halaman Konfigurasi pengaturan sinkronisasi, masukkan informasi berikut:
1. Lingkup sinkronisasi —Tetapkan batas untuk merayapi halaman web termasuk domain, ukuran file, dan tautannya; dan filter URLs menggunakan pola regex.
  1. (Opsional) Rentang domain crawl —Pilih apakah akan merayapi domain situs web saja, domain dengan subdomain, atau juga merayapi domain lain yang ditautkan oleh halaman web. Secara default, Amazon Kendra hanya merayapi domain situs web yang ingin Anda jelajahi.
  2. (Opsional) Konfigurasi tambahan —Atur pengaturan berikut:
    - Kedalaman merangkak —' Kedalaman 'atau jumlah level dari tingkat benih hingga merangkak. Misalnya, halaman URL benih adalah kedalaman 1 dan hyperlink apa pun di halaman ini yang juga dirayapi adalah kedalaman 2.
    - Ukuran file maksimum —Ukuran maksimum dalam MB halaman web atau lampiran untuk dirayapi.
    - Tautan maksimum per halaman —Jumlah maksimum URLs pada satu halaman web untuk dirayapi.
    - Pelambatan maksimum kecepatan perayapan —Jumlah maksimum URLs crawl per host situs web per menit.
    - File —Pilih untuk merayapi file yang ditautkan ke halaman web.
    - Crawl dan index URLs —Tambahkan pola ekspresi reguler untuk menyertakan atau mengecualikan crawling tertentu URLs, dan mengindeks hyperlink apa pun di halaman web URL ini.
2. Mode sinkronisasi —Pilih cara Anda ingin memperbarui indeks saat konten sumber data Anda berubah. Saat Anda menyinkronkan sumber data Amazon Kendra untuk pertama kalinya, semua konten dirayapi dan diindeks secara default. Anda harus menjalankan sinkronisasi penuh data Anda jika sinkronisasi awal Anda gagal, bahkan jika Anda tidak memilih sinkronisasi penuh sebagai opsi mode sinkronisasi Anda.
  - Sinkronisasi penuh: Indeks baru semua konten, ganti konten yang ada setiap kali sumber data Anda disinkronkan dengan indeks Anda.
  - Sinkronisasi baru, dimodifikasi, dihapus: Indeks hanya konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan indeks Anda. Amazon Kendra dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan mengindeks konten yang berubah sejak sinkronisasi terakhir.
3. Sinkronkan jadwal berjalan —Untuk Frekuensi, pilih seberapa sering Amazon Kendra akan disinkronkan dengan sumber data Anda.
4. Pilih Berikutnya.
Pada halaman Setel pemetaan bidang, masukkan informasi berikut:
1. Pilih dari bidang default Amazon Kendra yang dihasilkan dari halaman web dan file yang ingin Anda petakan ke indeks Anda.
2. Pilih Berikutnya.
Pada halaman Tinjau dan buat, periksa apakah informasi yang Anda masukkan sudah benar dan kemudian pilih Tambahkan sumber data. Anda juga dapat memilih untuk mengedit informasi Anda dari halaman ini. Sumber data Anda akan muncul di halaman Sumber data setelah sumber data berhasil ditambahkan.

API

Untuk terhubung Amazon Kendra ke web crawler

Anda harus menentukan JSON dari skema sumber data menggunakan API. TemplateConfiguration Anda harus memberikan informasi berikut ini:

Sumber data —Tentukan tipe sumber data seperti WEBCRAWLERV2 saat Anda menggunakan skema TemplateConfigurationJSON. Tentukan juga sumber data seperti TEMPLATE saat Anda memanggil CreateDataSourceAPI.
URLs—Tentukan benih atau titik URLs awal situs web atau peta situs situs web URLs yang ingin dirayapi. Anda dapat menentukan jalur ke Amazon S3 ember yang menyimpan daftar benih Anda URLs. Setiap URL dalam file teks untuk seed URLs harus diformat pada baris terpisah. Anda juga dapat menentukan path ke Amazon S3 bucket yang menyimpan file XHTML sitemap Anda. Anda dapat menggabungkan beberapa file peta situs ke dalam file ZIP dan menyimpan file ZIP di bucket Anda Amazon S3 .

catatan
Jika Anda ingin merayapi peta situs, periksa apakah URL dasar atau root sama dengan yang URLs tercantum di halaman peta situs Anda. Misalnya, jika URL peta situs Anda https://example.com/sitemap-page.html, yang URLs tercantum di halaman peta situs ini juga harus menggunakan URL dasar "”. https://example.com/
Mode sinkronisasi —Tentukan cara Amazon Kendra memperbarui indeks Anda saat konten sumber data Anda berubah. Saat Anda menyinkronkan sumber data Amazon Kendra untuk pertama kalinya, semua konten dirayapi dan diindeks secara default. Anda harus menjalankan sinkronisasi penuh data Anda jika sinkronisasi awal Anda gagal, bahkan jika Anda tidak memilih sinkronisasi penuh sebagai opsi mode sinkronisasi Anda. Anda dapat memilih antara:
- FORCED_FULL_CRAWLuntuk mengindeks semua konten baru, mengganti konten yang ada setiap kali sumber data Anda disinkronkan dengan indeks Anda.
- FULL_CRAWLuntuk mengindeks hanya konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan indeks Anda. Amazon Kendra dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan mengindeks konten yang berubah sejak sinkronisasi terakhir.
Otentikasi — Jika situs web Anda memerlukan otentikasi yang sama, tentukan salah satu,, BasicAuth NTLM_KerberosSAML, atau otentikasi. Form Jika situs web Anda tidak memerlukan otentikasi, tentukanNoAuthentication.

Rahasia Nama Sumber Daya Amazon (ARN) —Jika situs web Anda memerlukan otentikasi dasar, NTLM, atau Kerberos, Anda memberikan rahasia yang menyimpan kredensyal otentikasi nama pengguna dan kata sandi Anda. Anda memberikan Nama Sumber Daya Amazon (ARN) dari sebuah AWS Secrets Manager rahasia. Rahasianya disimpan dalam struktur JSON dengan kunci berikut:


{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password"
}

Jika situs web Anda memerlukan otentikasi SAMP, rahasianya disimpan dalam struktur JSON dengan kunci berikut:


{
    "seedUrlsHash": "Hash representation of all seed URLs",                                
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "userNameButtonXpath": "XPath for user name button",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}

Jika situs web Anda memerlukan otentikasi formulir, rahasianya disimpan dalam struktur JSON dengan kunci berikut:


{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}

Anda dapat menemukan XPaths (Bahasa Jalur XHTML) elemen menggunakan alat pengembang browser web Anda. XPaths biasanya mengikuti format ini://tagname[@Attribute='Value'].

Anda juga dapat memberikan kredensyal proxy web menggunakan dan AWS Secrets Manager rahasia.

IAM peran —Tentukan RoleArn kapan Anda menelepon CreateDataSource untuk memberikan IAM peran dengan izin untuk mengakses Secrets Manager rahasia Anda dan memanggil publik yang diperlukan APIs untuk konektor perayap web dan. Amazon Kendra Untuk informasi selengkapnya, lihat IAM peran untuk sumber data perayap web.

Anda juga dapat menambahkan fitur opsional berikut:

Virtual Private Cloud (VPC) VpcConfiguration —Tentukan kapan Anda menelepon. CreateDataSource Untuk informasi selengkapnya, lihat Mengkonfigurasi Amazon Kendra untuk menggunakan Amazon VPC.
Rentang domain —Pilih apakah akan merayapi domain situs web dengan subdomain saja, atau juga merayapi domain lain yang ditautkan ke halaman web. Secara default, Amazon Kendra hanya merayapi domain situs web yang ingin Anda jelajahi.
'Kedalaman' atau jumlah level dari tingkat benih hingga merangkak. Misalnya, halaman URL benih adalah kedalaman 1 dan hyperlink apa pun di halaman ini yang juga dirayapi adalah kedalaman 2.
Jumlah maksimum URLs pada satu halaman web untuk dirayapi.
Ukuran maksimum dalam MB halaman web atau lampiran untuk dirayapi.
Jumlah maksimum URLs crawled per host situs web per menit.
Host proxy web dan nomor port untuk terhubung ke dan merayapi situs web internal. Misalnya, nama host https://a.example.com/page1.htmladalah "a.example.com" dan nomor port adalah 443, port standar untuk HTTPS. Jika kredensyal proxy web diperlukan untuk terhubung ke host situs web, Anda dapat membuat AWS Secrets Manager yang menyimpan kredensialnya.
Filter penyertaan dan pengecualian —Tentukan apakah akan menyertakan atau mengecualikan perayapan tertentu URLs dan mengindeks hyperlink apa pun di halaman web URL ini.

catatan
Sebagian besar sumber data menggunakan pola ekspresi reguler, yang merupakan pola inklusi atau pengecualian yang disebut sebagai filter. Jika Anda menentukan filter inklusi, hanya konten yang cocok dengan filter inklusi yang diindeks. Dokumen apa pun yang tidak cocok dengan filter inklusi tidak diindeks. Jika Anda menentukan filter inklusi dan pengecualian, dokumen yang cocok dengan filter pengecualian tidak akan diindeks, meskipun sesuai dengan filter inklusi.
Pemetaan bidang —Pilih untuk memetakan bidang halaman web dan file halaman web ke bidang indeks Anda Amazon Kendra . Untuk informasi lebih lanjut, lihat Memetakan bidang sumber data.

Untuk daftar kunci JSON penting lainnya untuk dikonfigurasi, lihat Skema template Amazon Kendra Web Crawler.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Amazon Kendra Konektor Web Crawler v1.0

Mengkonfigurasi robots.txt file untuk Amazon Kendra Web Crawler