Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Merayapi halaman web untuk basis pengetahuan Amazon Bedrock Anda
Amazon Bedrock menyediakan Web Crawler terhubung ke dan crawl yang telah URLs Anda pilih untuk digunakan di basis pengetahuan Amazon Bedrock Anda. Anda dapat merayapi halaman situs web sesuai dengan cakupan atau batasan yang ditetapkan untuk pilihan URLs Anda. Anda dapat merayapi halaman situs web menggunakan Konsol AWS Manajemen untuk Amazon Bedrock
Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon
Web Crawler menghormati robots.txt sesuai dengan RFC 9309
Ada batasan berapa banyak item konten halaman web dan MB per item konten yang dapat dirayapi. Lihat Kuota untuk basis pengetahuan.
Fitur yang didukung
Web Crawler menghubungkan dan merayapi halaman HTML mulai dari URL benih, melintasi semua tautan anak di bawah domain dan jalur utama teratas yang sama. Jika salah satu halaman HTML mereferensikan dokumen yang didukung, Web Crawler akan mengambil dokumen-dokumen ini, terlepas dari apakah mereka berada dalam domain utama teratas yang sama. Anda dapat mengubah perilaku perayapan dengan mengubah konfigurasi crawling - lihat. Konfigurasi koneksi
Berikut ini didukung bagi Anda untuk:
-
Pilih beberapa sumber URLs untuk dirayapi dan atur cakupan URLs untuk meng-crawl hanya host atau juga menyertakan subdomain.
-
Merayapi halaman web statis atau dinamis yang merupakan bagian dari sumber URLs Anda.
-
Tentukan akhiran Agen Pengguna kustom untuk menetapkan aturan untuk crawler Anda sendiri.
-
Sertakan atau kecualikan tertentu URLs yang cocok dengan pola filter.
-
Hormati arahan robots.txt standar seperti 'Allow' dan 'Disallow'.
-
Batasi cakupan crawl dan secara opsional kecualikan URLs yang cocok dengan pola filter. URLs
-
Batasi kecepatan crawling URLs dan jumlah maksimum halaman yang akan dirayapi.
-
Lihat status crawled URLs di Amazon CloudWatch
Prasyarat
Untuk menggunakan Web Crawler, pastikan Anda:
-
Periksa apakah Anda berwenang untuk merayapi sumber URLs Anda.
-
Memeriksa jalur ke robots.txt yang sesuai dengan sumber Anda URLs tidak menghalangi agar tidak dirayapi. URLs Web Crawler mematuhi standar robots.txt: secara
disallow
default jika robots.txt tidak ditemukan untuk situs web. Web Crawler menghormati robots.txt sesuai dengan RFC9309. Anda juga dapat menentukan sufiks header Agen Pengguna kustom untuk menetapkan aturan untuk crawler Anda sendiri. Untuk informasi selengkapnya, lihat Akses URL Perayap Web dalam Konfigurasi koneksi petunjuk di halaman ini. -
Aktifkan pengiriman CloudWatch Log dan ikuti contoh log Perayap Web untuk melihat status pekerjaan penyerapan data Anda untuk menelan konten web, dan jika tertentu URLs tidak dapat diambil.
catatan
Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon
Konfigurasi koneksi
Untuk informasi selengkapnya tentang cakupan sinkronisasi untuk perayapan URLs, filter inklusi/pengecualian, akses URL, sinkronisasi inkremental, dan cara kerjanya, pilih yang berikut ini:
Anda dapat membatasi cakupan crawl berdasarkan setiap hubungan spesifik URL halaman dengan seed URLs. URLs Untuk perayapan yang lebih cepat, Anda dapat membatasi URLs ke host yang sama dan jalur URL awal URL benih. Untuk crawl yang lebih luas, Anda dapat memilih untuk meng-crawl URLs dengan host yang sama atau dalam subdomain mana pun dari URL seed.
Anda dapat memilih dari opsi berikut.
-
Default: Batasi perayapan ke halaman web milik host yang sama dan dengan jalur URL awal yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka hanya jalur dan halaman web yang memanjang dari jalur ini yang akan dirayapi, seperti "https://aws.amazon.com/bedrock/agen/”. Saudara URLs seperti "https://aws.amazon.com/ec2/" tidak merangkak, misalnya.
-
Hanya host: Batasi perayapan ke halaman web milik host yang sama. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/“, maka halaman web dengan" https://aws.amazon.com "juga akan dirayapi, seperti" https://aws.amazon.com /ec2”.
-
Subdomain: Sertakan perayapan halaman web apa pun yang memiliki domain utama yang sama dengan URL benih. Misalnya, dengan URL benih "https://aws.amazon.com/bedrock/" maka halaman web apa pun yang berisi “amazon.com” (subdomain) akan dirayapi, seperti "”. https://www.amazon.com
catatan
Pastikan Anda tidak merayapi halaman web yang berpotensi berlebihan. Tidak disarankan untuk merayapi situs web besar, seperti wikipedia.org, tanpa filter atau batasan cakupan. Merayapi situs web besar akan membutuhkan waktu yang sangat lama untuk dirayapi.
Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file.
Web Crawler mendukung situs web statis dan dinamis.
Anda juga dapat membatasi laju perayapan URLs untuk mengontrol pelambatan kecepatan crawling. Anda mengatur jumlah maksimum URLs crawled per host per menit. Selain itu, Anda juga dapat mengatur jumlah maksimum (hingga 25.000) dari total halaman web untuk dirayapi. Perhatikan bahwa jika jumlah total halaman web dari sumber Anda URLs melebihi maksimum yang ditetapkan, maka pekerjaan sinkronisasi/penyerapan sumber data Anda akan gagal.
Anda dapat memasukkan atau mengecualikan tertentu sesuai URLs dengan ruang lingkup Anda. Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file. Jika Anda menentukan filter penyertaan dan pengecualian dan keduanya cocok dengan URL, filter pengecualian akan diutamakan dan konten web tidak dirayapi.
penting
Filter pola ekspresi reguler bermasalah yang menyebabkan bencana mundur dan melihat ke depan ditolak.
Contoh pola filter ekspresi reguler untuk mengecualikan akhir URLs itu dengan lampiran halaman web “.pdf” atau PDF: “.*\ .pdf$”
Anda dapat menggunakan Web Crawler untuk merayapi halaman situs web yang diizinkan untuk dirayapi.
Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon
Web Crawler menghormati robots.txt sesuai dengan RFC 9309
Anda dapat menentukan bot agen pengguna tertentu untuk 'Izinkan' atau 'Larang' agen pengguna untuk merayapi sumber Anda. URLs Anda dapat memodifikasi file robots.txt situs web Anda untuk mengontrol bagaimana Web Crawler merayapi sumber Anda. URLs Crawler pertama-tama akan mencari bedrockbot-UUID
aturan dan kemudian untuk bedrockbot
aturan generik dalam file robots.txt.
Anda juga dapat menambahkan akhiran User-Agent yang dapat digunakan untuk mengizinkan crawler Anda dalam sistem perlindungan bot. Perhatikan bahwa akhiran ini tidak perlu ditambahkan ke file robots.txt untuk memastikan bahwa tidak ada yang bisa meniru string Agen Pengguna. Misalnya, untuk mengizinkan Perayap Web merayapi semua konten situs web dan melarang perayapan untuk robot lain, gunakan arahan berikut:
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Setiap kali Web Crawler berjalan, ia mengambil konten untuk semua URLs yang dapat dijangkau dari sumber URLs dan yang cocok dengan lingkup dan filter. Untuk sinkronisasi tambahan setelah sinkronisasi pertama semua konten, Amazon Bedrock akan memperbarui basis pengetahuan Anda dengan konten baru dan yang dimodifikasi, dan akan menghapus konten lama yang tidak lagi ada. Kadang-kadang, crawler mungkin tidak dapat mengetahui apakah konten telah dihapus dari situs web; dan dalam hal ini akan salah di sisi melestarikan konten lama di basis pengetahuan Anda.
Untuk menyinkronkan sumber data Anda dengan basis pengetahuan Anda, gunakan StartIngestionJobAPI atau pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.
penting
Semua data yang Anda sinkronkan dari sumber data Anda akan tersedia bagi siapa saja yang memiliki bedrock:Retrieve
izin untuk mengambil data. Ini juga dapat mencakup data apa pun dengan izin sumber data terkontrol. Untuk informasi selengkapnya, lihat Izin basis pengetahuan.