Amazon Kendra Konektor Web Crawler v1.0 - Amazon Kendra

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Amazon Kendra Konektor Web Crawler v1.0

Anda dapat menggunakan Amazon Kendra Web Crawler untuk merayapi dan mengindeks halaman web.

Anda hanya dapat merayapi situs web dan situs web yang menghadap publik yang menggunakan protokol komunikasi aman Hypertext Transfer Protocol Secure (HTTPS). Jika Anda menerima kesalahan saat merayapi situs web, bisa jadi situs web tersebut diblokir dari perayapan. Untuk merayapi situs web internal, Anda dapat mengatur proxy web. Proxy web harus menghadap publik.

Saat memilih situs web untuk diindeks, Anda harus mematuhi Kebijakan Penggunaan yang Diterima Amazon dan semua syarat Amazon lainnya. Ingat bahwa Anda hanya harus menggunakan Amazon Kendra Web Crawler untuk mengindeks halaman web Anda sendiri, atau halaman web yang Anda memiliki otorisasi untuk indeks. Untuk mempelajari cara menghentikan Amazon Kendra Web Crawler dari mengindeks situs web Anda, silakan lihat. Mengkonfigurasi robots.txt file untuk Amazon Kendra Web Crawler

catatan

Menyalahgunakan Amazon Kendra Web Crawler untuk secara agresif merayapi situs web atau halaman web yang tidak Anda miliki dianggap penggunaan yang dapat diterima.

Untuk memecahkan masalah konektor sumber data crawler Amazon Kendra web Anda, lihat. Mengatasi masalah sumber data

Fitur yang didukung

  • Proksi web

  • Filter inklusi/pengecualian

Prasyarat

Sebelum Anda dapat menggunakan Amazon Kendra untuk mengindeks situs web Anda, periksa detail situs web dan AWS akun Anda.

Untuk situs web Anda, pastikan Anda memiliki:

  • Menyalin URL benih atau peta situs dari situs web yang ingin Anda indeks.

  • Untuk situs web yang memerlukan otentikasi dasar: Mencatat nama pengguna dan kata sandi, dan menyalin nama host situs web dan nomor port.

  • Opsional: Menyalin nama host situs web dan nomor port jika Anda ingin menggunakan proxy web untuk terhubung ke situs web internal yang ingin dirayapi. Proxy web harus menghadap publik. Amazon Kendra mendukung koneksi ke server proxy web yang didukung oleh otentikasi dasar atau Anda dapat terhubung tanpa otentikasi.

  • Memeriksa setiap dokumen halaman web yang ingin Anda indeks adalah unik dan di seluruh sumber data lain yang Anda rencanakan untuk digunakan untuk indeks yang sama. Setiap sumber data yang ingin Anda gunakan untuk indeks tidak boleh berisi dokumen yang sama di seluruh sumber data. ID dokumen bersifat global untuk indeks dan harus unik per indeks.

Di AWS akun Anda, pastikan Anda memiliki:

  • Membuat Amazon Kendra indeks dan, jika menggunakan API, mencatat ID indeks.

  • Membuat IAM peran untuk sumber data Anda dan, jika menggunakan API, catat ARN peran tersebut IAM .

    catatan

    Jika Anda mengubah jenis otentikasi dan kredensialnya, Anda harus memperbarui IAM peran Anda untuk mengakses ID rahasia yang benar AWS Secrets Manager .

  • Untuk situs web yang memerlukan otentikasi, atau jika menggunakan proxy web dengan otentikasi, menyimpan kredensyal otentikasi Anda secara AWS Secrets Manager rahasia dan, jika menggunakan API, catat ARN rahasia tersebut.

    catatan

    Kami menyarankan Anda secara teratur menyegarkan atau memutar kredensyal dan rahasia Anda. Berikan hanya tingkat akses yang diperlukan untuk keamanan Anda sendiri. Kami tidak menyarankan Anda menggunakan kembali kredensyal dan rahasia di seluruh sumber data, dan konektor versi 1.0 dan 2.0 (jika berlaku).

Jika Anda tidak memiliki IAM peran atau rahasia yang ada, Anda dapat menggunakan konsol untuk membuat IAM peran dan Secrets Manager rahasia baru saat Anda menghubungkan sumber web crawler data Anda Amazon Kendra. Jika Anda menggunakan API, Anda harus memberikan ARN IAM peran dan Secrets Manager rahasia yang ada, dan ID indeks.

Instruksi koneksi

Untuk terhubung Amazon Kendra ke sumber web crawler data Anda, Anda harus memberikan rincian yang diperlukan dari sumber web crawler data Anda sehingga Amazon Kendra dapat mengakses data Anda. Jika Anda belum mengkonfigurasi web crawler untuk Amazon Kendra lihatPrasyarat.

Console

Untuk terhubung Amazon Kendra ke web crawler

  1. Masuk ke AWS Management Console dan buka Amazon Kendra konsol.

  2. Dari panel navigasi kiri, pilih Indeks dan kemudian pilih indeks yang ingin Anda gunakan dari daftar indeks.

    catatan

    Anda dapat memilih untuk mengonfigurasi atau mengedit pengaturan kontrol akses Pengguna Anda di bawah Pengaturan indeks.

  3. Pada halaman Memulai, pilih Tambahkan sumber data.

  4. Pada halaman Tambah sumber data, pilih konektor web crawler, lalu pilih Tambah konektor. Jika menggunakan versi 2 (jika ada), pilih konektor web crawler dengan tag “V2.0".

  5. Pada halaman Tentukan detail sumber data, masukkan informasi berikut:

    1. Di Nama dan deskripsi, untuk Nama sumber data —Masukkan nama untuk sumber data Anda. Anda dapat memasukkan tanda hubung tetapi bukan spasi.

    2. (Opsional) Deskripsi —Masukkan deskripsi opsional untuk sumber data Anda.

    3. Dalam Bahasa default —Pilih bahasa untuk memfilter dokumen Anda untuk indeks. Kecuali Anda menentukan sebaliknya, bahasa default ke bahasa Inggris. Bahasa yang ditentukan dalam metadata dokumen mengesampingkan bahasa yang dipilih.

    4. Di Tag, untuk Tambahkan tag baru —Sertakan tag opsional untuk mencari dan memfilter sumber daya Anda atau melacak AWS biaya Anda.

    5. Pilih Selanjutnya.

  6. Pada halaman Tentukan akses dan keamanan, masukkan informasi berikut:

    1. Untuk Sumber, pilih antara URL Sumber dan peta situs Sumber tergantung pada kasus penggunaan Anda dan masukkan nilai untuk masing-masing.

      Anda dapat menambahkan hingga 10 URL sumber dan tiga peta situs.

      catatan

      Jika Anda ingin merayapi peta situs, periksa apakah URL dasar atau root sama dengan URL yang tercantum di halaman peta situs Anda. Misalnya, jika URL peta situs Anda https://example.com/sitemap-page.html, URL yang tercantum di halaman peta situs ini juga harus menggunakan URL dasar "”. https://example.com/

    2. (Opsional) Untuk proxy Web — masukkan informasi berikut:

      1. Nama host —Nama host tempat proxy web diperlukan.

      2. Nomor port —Port yang digunakan oleh protokol transport URL host. Nomor port harus berupa nilai numerik antara 0 dan 65535.

      3. Untuk kredensyal proxy Web —Jika koneksi proxy web Anda memerlukan otentikasi, pilih rahasia yang ada atau buat rahasia baru untuk menyimpan kredensyal otentikasi Anda. Jika Anda memilih untuk membuat rahasia baru, jendela AWS Secrets Manager rahasia terbuka.

      4. Masukkan informasi berikut di jendela Buat AWS Secrets Manager Secrets Manager rahasia:

        1. Nama rahasia —Nama untuk rahasiamu. Awalan 'AmazonKendra-WebCrawler-' secara otomatis ditambahkan ke nama rahasia Anda.

        2. Untuk Nama Pengguna dan Kata Sandi —Masukkan kredensyal otentikasi dasar ini untuk situs web Anda.

        3. Pilih Simpan.

    3. (Opsional) Host dengan otentikasi —Pilih untuk menambahkan host tambahan dengan otentikasi.

    4. IAM peran —Pilih peran yang sudah ada atau buat IAM IAM peran baru untuk mengakses kredensi repositori dan mengindeks konten Anda.

      catatan

      IAM peran yang digunakan untuk indeks tidak dapat digunakan untuk sumber data. Jika Anda tidak yakin apakah peran yang ada digunakan untuk indeks atau FAQ, pilih Buat peran baru untuk menghindari kesalahan.

    5. Pilih Selanjutnya.

  7. Pada halaman Konfigurasi pengaturan sinkronisasi, masukkan informasi berikut:

    1. Rentang perayapan —Pilih jenis halaman web yang ingin dirayapi.

    2. Kedalaman perayapan —Pilih jumlah level dari URL seed yang Amazon Kendra seharusnya di-crawl.

    3. Pengaturan crawl lanjutan dan Konfigurasi tambahan masukkan informasi berikut:

      1. Ukuran file maksimum —Halaman web maksimum atau ukuran lampiran untuk dirayapi. Minimum 0,000001 MB (1 byte). Maksimal 50 MB.

      2. Tautan maksimum per halaman —Jumlah maksimum tautan yang dirayapi per halaman. Tautan dirayapi sesuai urutan penampilan. Minimal 1 tautan/halaman. Maksimal 1000 tautan/halaman.

      3. Pelambatan maksimum —Jumlah maksimum URL yang dirayapi per nama host per menit. Minimal 1 URL/nama host-/menit. Maksimal 300 URL/nama host-/menit.

      4. Pola Regex —Tambahkan pola ekspresi reguler untuk menyertakan atau mengecualikan URL tertentu. Anda dapat menambahkan hingga 100 pola.

    4. Di Jadwal berjalan Sinkronisasi, untuk Frekuensi —Pilih seberapa sering Amazon Kendra akan disinkronkan dengan sumber data Anda.

    5. Pilih Selanjutnya.

  8. Pada halaman Tinjau dan buat, periksa apakah informasi yang Anda masukkan sudah benar dan kemudian pilih Tambahkan sumber data. Anda juga dapat memilih untuk mengedit informasi Anda dari halaman ini. Sumber data Anda akan muncul di halaman Sumber data setelah sumber data berhasil ditambahkan.

API

Untuk terhubung Amazon Kendra ke web crawler

Anda harus menentukan yang berikut menggunakan WebCrawlerConfigurationAPI:

  • URL —Tentukan URL benih atau titik awal situs web atau URL peta situs situs web yang ingin Anda jelajahi menggunakan dan. SeedUrlConfigurationSiteMapsConfiguration

    catatan

    Jika Anda ingin merayapi peta situs, periksa apakah URL dasar atau root sama dengan URL yang tercantum di halaman peta situs Anda. Misalnya, jika URL peta situs Anda https://example.com/sitemap-page.html, URL yang tercantum di halaman peta situs ini juga harus menggunakan URL dasar "”. https://example.com/

  • Rahasia Nama Sumber Daya Amazon (ARN) —Jika sebuah situs web memerlukan otentikasi dasar, Anda memberikan nama host, nomor port, dan rahasia yang menyimpan kredensyal otentikasi dasar nama pengguna dan kata sandi Anda. Anda memberikan ARN rahasia menggunakan API. AuthenticationConfiguration Rahasianya disimpan dalam struktur JSON dengan kunci berikut:

    { "username": "user name", "password": "password" }

    Anda juga dapat memberikan kredensyal proxy web menggunakan rahasia. AWS Secrets Manager Anda menggunakan ProxyConfigurationAPI untuk memberikan nama host situs web dan nomor port, dan secara opsional rahasia yang menyimpan kredensyal proxy web Anda.

  • IAM peran —Tentukan RoleArn kapan Anda menelepon CreateDataSource untuk memberikan IAM peran dengan izin untuk mengakses Secrets Manager rahasia Anda dan memanggil API publik yang diperlukan untuk konektor perayap web dan. Amazon Kendra Untuk informasi selengkapnya, lihat IAM peran untuk sumber data perayap web.

Anda juga dapat menambahkan fitur opsional berikut:

  • Mode perayapan —Pilih apakah akan merayapi nama host situs web saja, atau nama host dengan subdomain, atau juga merayapi domain lain yang ditautkan halaman web.

  • 'Kedalaman' atau jumlah level dari tingkat benih hingga merangkak. Misalnya, halaman URL benih adalah kedalaman 1 dan hyperlink apa pun di halaman ini yang juga dirayapi adalah kedalaman 2.

  • Jumlah maksimum URL pada satu halaman web untuk dirayapi.

  • Ukuran maksimum dalam MB halaman web untuk dirayapi.

  • Jumlah maksimum URL yang dirayapi per host situs web per menit.

  • Host proxy web dan nomor port untuk terhubung ke dan merayapi situs web internal. Misalnya, nama host https://a.example.com/page1.htmladalah "a.example.com" dan nomor port adalah 443, port standar untuk HTTPS. Jika kredensyal proxy web diperlukan untuk terhubung ke host situs web, Anda dapat membuat AWS Secrets Manager yang menyimpan kredensialnya.

  • Informasi autentikasi untuk mengakses dan merayapi situs web yang memerlukan autentikasi pengguna.

  • Anda dapat mengekstrak tag meta HTML sebagai bidang menggunakan alat Pengayaan Dokumen Kustom. Untuk informasi selengkapnya, lihat Menyesuaikan metadata dokumen selama proses konsumsi. Untuk contoh mengekstrak tag meta HTML, lihat contoh CDE.

  • Filter inklusi dan pengecualian —Tentukan apakah akan menyertakan atau mengecualikan URL tertentu.

    catatan

    Sebagian besar sumber data menggunakan pola ekspresi reguler, yang merupakan pola inklusi atau pengecualian yang disebut sebagai filter. Jika Anda menentukan filter inklusi, hanya konten yang cocok dengan filter inklusi yang diindeks. Dokumen apa pun yang tidak cocok dengan filter inklusi tidak diindeks. Jika Anda menentukan filter inklusi dan pengecualian, dokumen yang cocok dengan filter pengecualian tidak akan diindeks, meskipun sesuai dengan filter inklusi.

Pelajari selengkapnya

Untuk mempelajari lebih lanjut tentang mengintegrasikan Amazon Kendra dengan sumber web crawler data Anda, lihat: