Merayapi halaman web untuk basis pengetahuan Amazon Bedrock Anda - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Merayapi halaman web untuk basis pengetahuan Amazon Bedrock Anda

Amazon Bedrock menyediakan Web Crawler terhubung ke dan crawl yang telah URLs Anda pilih untuk digunakan di basis pengetahuan Amazon Bedrock Anda. Anda dapat merayapi halaman situs web sesuai dengan cakupan atau batasan yang ditetapkan untuk pilihan URLs Anda. Anda dapat merayapi halaman situs web menggunakan Konsol AWS Manajemen untuk Amazon Bedrock atau CreateDataSourceAPI (lihat Amazon Bedrock didukung SDKs dan). AWS CLI

Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon dan semua persyaratan Amazon lainnya. Ingat bahwa Anda hanya harus menggunakan Web Crawler untuk mengindeks halaman web Anda sendiri, atau halaman web yang Anda memiliki otorisasi untuk dirayapi dan harus menghormati konfigurasi robots.txt..

Web Crawler menghormati robots.txt sesuai dengan RFC 9309

Ada batasan berapa banyak item konten halaman web dan MB per item konten yang dapat dirayapi. Lihat Kuota untuk basis pengetahuan.

Fitur yang didukung

Web Crawler menghubungkan dan merayapi halaman HTML mulai dari URL benih, melintasi semua tautan anak di bawah domain dan jalur utama teratas yang sama. Jika salah satu halaman HTML mereferensikan dokumen yang didukung, Web Crawler akan mengambil dokumen-dokumen ini, terlepas dari apakah mereka berada dalam domain utama teratas yang sama. Anda dapat mengubah perilaku perayapan dengan mengubah konfigurasi crawling - lihat. Konfigurasi koneksi

Berikut ini didukung bagi Anda untuk:

  • Pilih beberapa sumber URLs untuk dirayapi dan atur cakupan URLs untuk meng-crawl hanya host atau juga menyertakan subdomain.

  • Merayapi halaman web statis atau dinamis yang merupakan bagian dari sumber URLs Anda.

  • Tentukan akhiran Agen Pengguna kustom untuk menetapkan aturan untuk crawler Anda sendiri.

  • Sertakan atau kecualikan tertentu URLs yang cocok dengan pola filter.

  • Hormati arahan robots.txt standar seperti 'Allow' dan 'Disallow'.

  • Batasi cakupan crawl dan secara opsional kecualikan URLs yang cocok dengan pola filter. URLs

  • Batasi kecepatan crawling URLs dan jumlah maksimum halaman yang akan dirayapi.

  • Lihat status crawled URLs di Amazon CloudWatch

Prasyarat

Untuk menggunakan Web Crawler, pastikan Anda:

  • Periksa apakah Anda berwenang untuk merayapi sumber URLs Anda.

  • Memeriksa jalur ke robots.txt yang sesuai dengan sumber Anda URLs tidak menghalangi agar tidak dirayapi. URLs Web Crawler mematuhi standar robots.txt: secara disallow default jika robots.txt tidak ditemukan untuk situs web. Web Crawler menghormati robots.txt sesuai dengan RFC 9309. Anda juga dapat menentukan sufiks header Agen Pengguna kustom untuk menetapkan aturan untuk crawler Anda sendiri. Untuk informasi selengkapnya, lihat Akses URL Perayap Web dalam Konfigurasi koneksi petunjuk di halaman ini.

  • Aktifkan pengiriman CloudWatch Log dan ikuti contoh log Perayap Web untuk melihat status pekerjaan penyerapan data Anda untuk menelan konten web, dan jika tertentu URLs tidak dapat diambil.

catatan

Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon dan semua persyaratan Amazon lainnya. Ingat bahwa Anda hanya harus menggunakan Web Crawler untuk mengindeks halaman web Anda sendiri, atau halaman web yang Anda memiliki otorisasi untuk dirayapi.

Konfigurasi koneksi

Untuk informasi selengkapnya tentang cakupan sinkronisasi untuk perayapan URLs, filter inklusi/pengecualian, akses URL, sinkronisasi inkremental, dan cara kerjanya, pilih yang berikut ini:

Anda dapat membatasi cakupan crawl berdasarkan setiap hubungan spesifik URL halaman dengan seed URLs. URLs Untuk perayapan yang lebih cepat, Anda dapat membatasi URLs ke host yang sama dan jalur URL awal URL benih. Untuk crawl yang lebih luas, Anda dapat memilih untuk meng-crawl URLs dengan host yang sama atau dalam subdomain mana pun dari URL seed.

Anda dapat memilih dari opsi berikut.

  • Default: Batasi perayapan ke halaman web milik host yang sama dan dengan jalur URL awal yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka hanya jalur dan halaman web yang memanjang dari jalur ini yang akan dirayapi, seperti "https://aws.amazon.com/bedrock/agen/”. Saudara URLs seperti "https://aws.amazon.com/ec2/" tidak merangkak, misalnya.

  • Hanya host: Batasi perayapan ke halaman web milik host yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/“, maka halaman web dengan" https://aws.amazon.com "juga akan dirayapi, seperti" https://aws.amazon.com /ec2”.

  • Subdomain: Sertakan perayapan halaman web apa pun yang memiliki domain utama yang sama dengan URL benih. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka halaman web apa pun yang berisi “amazon.com” (subdomain) akan dirayapi, seperti "”. https://www.amazon.com

catatan

Pastikan Anda tidak merayapi halaman web yang berpotensi berlebihan. Tidak disarankan untuk merayapi situs web besar, seperti wikipedia.org, tanpa filter atau batasan cakupan. Merayapi situs web besar akan membutuhkan waktu yang sangat lama untuk dirayapi.

Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file.

Web Crawler mendukung situs web statis dan dinamis.

Anda juga dapat membatasi laju perayapan URLs untuk mengontrol pelambatan kecepatan crawling. Anda mengatur jumlah maksimum URLs crawled per host per menit. Selain itu, Anda juga dapat mengatur jumlah maksimum (hingga 25.000) dari total halaman web untuk dirayapi. Perhatikan bahwa jika jumlah total halaman web dari sumber Anda URLs melebihi maksimum yang ditetapkan, maka pekerjaan sinkronisasi/penyerapan sumber data Anda akan gagal.

Anda dapat memasukkan atau mengecualikan tertentu sesuai URLs dengan ruang lingkup Anda. Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file. Jika Anda menentukan filter penyertaan dan pengecualian dan keduanya cocok dengan URL, filter pengecualian akan diutamakan dan konten web tidak dirayapi.

penting

Filter pola ekspresi reguler bermasalah yang menyebabkan bencana mundur dan melihat ke depan ditolak.

Contoh pola filter ekspresi reguler untuk mengecualikan akhir URLs itu dengan lampiran halaman web “.pdf” atau PDF: “.*\ .pdf$

Anda dapat menggunakan Web Crawler untuk merayapi halaman situs web yang diizinkan untuk dirayapi.

Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon dan semua persyaratan Amazon lainnya. Ingat bahwa Anda hanya harus menggunakan Web Crawler untuk mengindeks halaman web Anda sendiri, atau halaman web yang Anda memiliki otorisasi untuk dirayapi.

Web Crawler menghormati robots.txt sesuai dengan RFC 9309

Anda dapat menentukan bot agen pengguna tertentu untuk 'Izinkan' atau 'Larang' agen pengguna untuk merayapi sumber Anda. URLs Anda dapat memodifikasi file robots.txt situs web Anda untuk mengontrol bagaimana Web Crawler merayapi sumber Anda. URLs Crawler pertama-tama akan mencari bedrockbot-UUID aturan dan kemudian untuk bedrockbot aturan generik dalam file robots.txt.

Anda juga dapat menambahkan akhiran User-Agent yang dapat digunakan untuk mengizinkan crawler Anda dalam sistem perlindungan bot. Perhatikan bahwa akhiran ini tidak perlu ditambahkan ke file robots.txt untuk memastikan bahwa tidak ada yang bisa meniru string Agen Pengguna. Misalnya, untuk mengizinkan Perayap Web merayapi semua konten situs web dan melarang perayapan untuk robot lain, gunakan arahan berikut:

User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Setiap kali Web Crawler berjalan, ia mengambil konten untuk semua URLs yang dapat dijangkau dari sumber URLs dan yang cocok dengan lingkup dan filter. Untuk sinkronisasi tambahan setelah sinkronisasi pertama semua konten, Amazon Bedrock akan memperbarui basis pengetahuan Anda dengan konten baru dan yang dimodifikasi, dan akan menghapus konten lama yang tidak lagi ada. Kadang-kadang, crawler mungkin tidak dapat mengetahui apakah konten telah dihapus dari situs web; dan dalam hal ini akan salah di sisi melestarikan konten lama di basis pengetahuan Anda.

Untuk menyinkronkan sumber data Anda dengan basis pengetahuan Anda, gunakan StartIngestionJobAPI atau pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.

penting

Semua data yang Anda sinkronkan dari sumber data Anda akan tersedia bagi siapa saja yang memiliki bedrock:Retrieve izin untuk mengambil data. Ini juga dapat mencakup data apa pun dengan izin sumber data terkontrol. Untuk informasi selengkapnya, lihat Izin basis pengetahuan.

Console
Connect sumber data Web Crawler ke basis pengetahuan Anda
  1. Ikuti langkah-langkah di Buat basis pengetahuan di Amazon Bedrock Knowledge Bases dan pilih Web Crawler sebagai sumber data.

  2. Berikan nama dan deskripsi opsional untuk sumber data.

  3. Berikan Sumber URLs yang ingin URLs Anda jelajahi. Anda dapat menambahkan hingga 9 tambahan URLs dengan memilih Tambah Sumber URLs. Dengan menyediakan URL sumber, Anda mengonfirmasi bahwa Anda berwenang untuk merayapi domainnya.

  4. Di bagian Pengaturan lanjutan, Anda dapat secara opsional mengonfigurasi yang berikut:

    • Kunci KMS untuk penyimpanan data sementara. — Anda dapat mengenkripsi data sementara sambil mengubah data Anda menjadi embeddings dengan default atau kunci KMS Anda sendiri. Kunci yang dikelola AWS Untuk informasi selengkapnya, lihat Enkripsi penyimpanan data sementara selama konsumsi data.

    • Kebijakan penghapusan data — Anda dapat menghapus embeddings vektor untuk sumber data Anda yang disimpan di penyimpanan vektor secara default, atau memilih untuk menyimpan data penyimpanan vektor.

  5. (Opsional) Berikan akhiran agen pengguna untuk BedROCK-UUID- yang mengidentifikasi crawler atau bot saat mengakses server web.

  6. Konfigurasikan yang berikut ini di bagian Lingkup Sinkronisasi:

    1. Pilih rentang domain Situs web untuk merayapi sumber Anda: URLs

      • Default: Batasi perayapan ke halaman web milik host yang sama dan dengan jalur URL awal yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka hanya jalur dan halaman web yang memanjang dari jalur ini yang akan dirayapi, seperti "https://aws.amazon.com/bedrock/agen/”. Saudara URLs seperti "https://aws.amazon.com/ec2/" tidak merangkak, misalnya.

      • Hanya host: Batasi perayapan ke halaman web milik host yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/“, maka halaman web dengan" https://aws.amazon.com "juga akan dirayapi, seperti" https://aws.amazon.com /ec2”.

      • Subdomain: Sertakan perayapan halaman web apa pun yang memiliki domain utama yang sama dengan URL benih. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka halaman web apa pun yang berisi “amazon.com” (subdomain) akan dirayapi, seperti "”. https://www.amazon.com

      catatan

      Pastikan Anda tidak merayapi halaman web yang berpotensi berlebihan. Tidak disarankan untuk merayapi situs web besar, seperti wikipedia.org, tanpa filter atau batasan cakupan. Merayapi situs web besar akan membutuhkan waktu yang sangat lama untuk dirayapi.

      Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file.

    2. Masukkan pelambatan maksimum kecepatan perayapan. Menelan URLs antara 1 dan 300 URLs per host per menit. Kecepatan merangkak yang lebih tinggi meningkatkan beban tetapi membutuhkan waktu lebih sedikit.

    3. Masukkan halaman Maksimum untuk sinkronisasi sumber data antara 1 dan 25000. Batasi jumlah maksimum halaman web yang dirayapi dari sumber URLs Anda. Jika halaman web melebihi angka ini, sinkronisasi sumber data akan gagal dan tidak ada halaman web yang akan dicerna.

    4. Untuk pola URL Regex (opsional) Anda dapat menambahkan pola Sertakan atau Kecualikan pola dengan memasukkan pola ekspresi reguler di dalam kotak. Anda dapat menambahkan hingga 25 termasuk dan 25 mengecualikan pola filter dengan memilih Tambahkan pola baru. Pola include dan exclude dirayapi sesuai dengan cakupan Anda. Jika ada konflik, pola pengecualian diutamakan.

  7. (Opsional) Di bagian Parsing dan chunking konten, Anda dapat menyesuaikan cara mengurai dan memotong data Anda. Lihat sumber daya berikut untuk mempelajari lebih lanjut tentang penyesuaian ini:

  8. Lanjutkan untuk memilih model embeddings dan penyimpanan vektor. Untuk melihat langkah-langkah yang tersisa, kembali ke Buat basis pengetahuan di Amazon Bedrock Knowledge Bases dan lanjutkan dari langkah setelah menghubungkan sumber data Anda.

API

Untuk menghubungkan basis pengetahuan ke sumber data yang menggunakan WebCrawler, kirim CreateDataSourcepermintaan dengan titik akhir waktu pembuatan Agen untuk Amazon Bedrock, tentukan WEB di type bidang DataSourceConfiguration, dan sertakan bidang. webConfiguration Berikut ini adalah contoh konfigurasi Web Crawler untuk basis pengetahuan Amazon Bedrock Anda.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50, "maxPages": 100 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ], "userAgent": "CustomUserAgent" } }, "type": "WEB" }

Untuk mempelajari tentang penyesuaian yang dapat Anda terapkan pada konsumsi dengan menyertakan bidang opsionalvectorIngestionConfiguration, lihat. Sesuaikan konsumsi untuk sumber data