Connect ke Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Connect ke Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda

Amazon S3 adalah layanan penyimpanan objek yang menyimpan data sebagai objek dalam bucket. Anda dapat menyambung ke bucket Amazon S3 untuk basis pengetahuan Amazon Bedrock dengan menggunakan AWS Management Console untuk Amazon Bedrock atau API CreateDataSource(lihat SDK yang didukung Amazon Bedrock dan). AWS CLI

Fitur yang didukung

  • Bidang metadata dokumen

  • Filter konten inklusi/pengecualian

  • Konten tambahan disinkronkan untuk konten yang ditambahkan, diperbarui, dihapus

Prasyarat

Di Amazon S3, pastikan Anda:

  • Perhatikan URI bucket Amazon S3, Nama Sumber Daya Amazon (ARN), dan ID AWS akun untuk pemilik bucket. Anda dapat menemukan URI dan ARN di bagian properti di konsol Amazon S3. Bucket Anda harus berada di wilayah yang sama dengan basis pengetahuan Amazon Bedrock Anda. Anda harus memiliki izin untuk mengakses ember.

Di AWS akun Anda, pastikan Anda:

  • Sertakan izin yang diperlukan untuk terhubung ke sumber data Anda dalam kebijakan peran/izin AWS Identity and Access Management (IAM) untuk basis pengetahuan Anda. Untuk informasi tentang izin yang diperlukan untuk sumber data ini untuk ditambahkan ke IAM peran basis pengetahuan Anda, lihat Izin untuk mengakses sumber data.

catatan

Jika Anda menggunakan konsol, IAM peran dengan semua izin yang diperlukan dapat dibuat untuk Anda sebagai bagian dari langkah-langkah untuk membuat basis pengetahuan. Setelah Anda mengonfigurasi sumber data dan konfigurasi lainnya, IAM peran dengan semua izin yang diperlukan diterapkan ke basis pengetahuan khusus Anda.

Konfigurasi koneksi

Untuk terhubung ke bucket Amazon S3, Anda harus memberikan informasi konfigurasi yang diperlukan agar Amazon Bedrock dapat mengakses dan merayapi data Anda. Anda juga harus mengikutiPrasyarat.

Contoh konfigurasi untuk sumber data ini disertakan dalam bagian ini.

Untuk informasi selengkapnya tentang filter inklusi/pengecualian, bidang metadata dokumen, sinkronisasi inkremental, dan cara kerjanya, pilih yang berikut ini:

Anda dapat menyertakan file terpisah yang menentukan bidang/atribut metadata dokumen untuk setiap file di Amazon S3. Misalnya, dokumen oscars-coverage_20240310.pdf berisi artikel berita, yang dapat dikategorikan berdasarkan tahun dan genre. Untuk contoh ini, buat dan unggah ke bucket Anda file oscars-coverage_20240310.pdf.metadata.json berikut.

{ "metadataAttributes": { "genre": "entertainment", "year": 2024 } }

File metadata harus menggunakan nama yang sama dengan file dokumen sumber terkait, dengan .metadata.json ditambahkan ke akhir nama file. File metadata harus disimpan di folder atau lokasi yang sama dengan file sumber di bucket Amazon S3 Anda. File tidak boleh melebihi batas 10 KB. Untuk informasi tentang tipe data atribut/bidang yang didukung dan operator pemfilteran yang dapat Anda terapkan ke bidang metadata, lihat Metadata dan pemfilteran.

Anda dapat menyertakan atau mengecualikan perayapan konten tertentu. Misalnya, Anda dapat menentukan awalan pengecualian/pola ekspresi reguler untuk melewatkan perayapan file apa pun yang berisi “pribadi” dalam nama file. Anda juga dapat menentukan prefiks/pola ekspresi reguler inklusi untuk menyertakan entitas konten atau jenis konten tertentu. Jika Anda menentukan filter penyertaan dan pengecualian dan keduanya cocok dengan dokumen, filter pengecualian akan diutamakan dan dokumen tidak dirayapi.

Konektor sumber data merayapi konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan basis pengetahuan Anda. Amazon Bedrock dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan merayapi konten yang berubah sejak sinkronisasi terakhir. Saat Anda menyinkronkan sumber data dengan basis pengetahuan untuk pertama kalinya, semua konten dirayapi secara default.

Untuk menyinkronkan sumber data Anda dengan basis pengetahuan Anda, gunakan StartIngestionJobAPI atau pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.

penting

Semua data yang Anda sinkronkan dari sumber data Anda akan tersedia bagi siapa saja yang memiliki bedrock:Retrieve izin untuk mengambil data. Ini juga dapat mencakup data apa pun dengan izin sumber data terkontrol. Untuk informasi selengkapnya, lihat Izin basis pengetahuan.

Console

Berikut ini adalah contoh konfigurasi untuk menghubungkan ke Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda. Anda mengonfigurasi sumber data sebagai bagian dari langkah pembuatan basis pengetahuan di konsol.

  1. Masuk ke AWS Management Console menggunakan peran IAM dengan izin Amazon Bedrock, dan buka konsol Amazon Bedrock di https://console.aws.amazon.com/bedrock/.

  2. Dari panel navigasi kiri, pilih Basis pengetahuan.

  3. Di bagian Basis pengetahuan, pilih Buat basis pengetahuan.

  4. Berikan detail basis pengetahuan.

    1. Berikan nama basis pengetahuan dan deskripsi opsional.

    2. Berikan AWS Identity and Access Management peran untuk izin akses yang diperlukan yang diperlukan untuk membuat basis pengetahuan.

      catatan

      IAM Peran dengan semua izin yang diperlukan dapat dibuat untuk Anda sebagai bagian dari langkah konsol untuk membuat basis pengetahuan. Setelah Anda menyelesaikan langkah-langkah untuk membuat basis pengetahuan, IAM peran dengan semua izin yang diperlukan diterapkan ke basis pengetahuan khusus Anda.

    3. Buat tag apa pun yang ingin Anda tetapkan ke basis pengetahuan Anda.

    Buka bagian berikutnya untuk mengonfigurasi sumber data Anda.

  5. Pilih Amazon S3 sebagai sumber data Anda dan berikan detail konfigurasi koneksi.

    1. Berikan nama sumber data.

    2. Tentukan apakah bucket Amazon S3 Anda ada di akun Anda saat ini atau AWS akun lain AWS .

    3. Jelajahi dari lokasi bucket Amazon S3 yang ada atau berikan URI. Anda dapat menemukan URI dan ARN di bagian properti di konsol Amazon S3. Bucket Anda harus berada di wilayah yang sama dengan basis pengetahuan Amazon Bedrock Anda. Anda harus memiliki izin untuk mengakses ember.

      Anda dapat memilih untuk menggunakan AWS KMS kunci terkelola Anda sendiri untuk enkripsi data.

    Periksa pengaturan lanjutan. Anda dapat secara opsional mengubah pengaturan default yang dipilih.

  6. Setel kunci enkripsi data sementara dan kebijakan penghapusan data di pengaturan lanjutan.

    Untuk KMS key pengaturan, Anda dapat memilih salah satu kunci kustom atau menggunakan kunci enkripsi data default yang disediakan.

    Saat mengonversi data Anda menjadi embeddings, Amazon Bedrock mengenkripsi data sementara Anda dengan kunci yang memiliki dan mengelola, secara default. AWS Anda dapat menggunakan kunci KMS Anda sendiri. Untuk informasi selengkapnya, lihat Enkripsi penyimpanan data sementara selama konsumsi data.

    Untuk pengaturan kebijakan penghapusan data, Anda dapat memilih:

    • Hapus: Menghapus semua data milik sumber data dari penyimpanan vektor setelah penghapusan basis pengetahuan atau sumber daya sumber data. Perhatikan bahwa penyimpanan vektor yang mendasarinya sendiri tidak dihapus, hanya data. Bendera ini diabaikan jika AWS akun dihapus.

    • Mempertahankan: Menyimpan semua data di penyimpanan vektor Anda setelah penghapusan basis pengetahuan atau sumber daya sumber data.

    Lanjutkan mengonfigurasi sumber data Anda.

  7. Pilih konfigurasi chunking dan parsing default atau yang disesuaikan.

    1. Jika Anda memilih pengaturan khusus, pilih salah satu opsi chunking berikut:

      • Potongan ukuran tetap: Konten dibagi menjadi potongan-potongan teks dengan perkiraan ukuran token yang Anda tetapkan. Anda dapat mengatur jumlah maksimum token yang tidak boleh melebihi potongan dan persentase tumpang tindih antara potongan berturut-turut.

      • Potongan default: Konten dibagi menjadi potongan-potongan teks hingga 300 token. Jika satu dokumen atau konten berisi kurang dari 300 token, dokumen tersebut tidak dibagi lebih lanjut.

      • Chunking hierarkis: Konten diatur ke dalam struktur bersarang dari potongan orangtua-anak. Anda menetapkan ukuran token chunk induk maksimum dan ukuran token chunk anak maksimum. Anda juga menetapkan jumlah absolut token tumpang tindih antara setiap potongan induk dan orang tua dengan setiap anak.

      • Potongan semantik: Konten yang disusun ke dalam potongan teks atau kelompok kalimat yang serupa secara semantik. Anda mengatur jumlah maksimum kalimat di sekitar target/kalimat saat ini untuk dikelompokkan bersama (ukuran buffer). Anda juga menetapkan ambang batas persentil breakpoint untuk membagi teks menjadi potongan-potongan yang bermakna.

      • Tidak ada potongan: Setiap dokumen diperlakukan sebagai potongan teks tunggal. Anda mungkin ingin pra-proses dokumen Anda dengan membaginya menjadi file terpisah.

      catatan

      Anda tidak dapat mengubah strategi chunking setelah Anda membuat sumber data.

    2. Anda dapat memilih untuk menggunakan Amazon Bedrock model dasar untuk mengurai dokumen untuk mengurai lebih dari teks standar. Anda dapat mengurai data tabular dalam dokumen dengan strukturnya utuh, misalnya. Lihat Amazon Bedrock harga untuk informasi tentang biaya model pondasi.

    3. Anda dapat memilih untuk menggunakan AWS Lambda fungsi untuk menyesuaikan strategi chunking Anda dan bagaimana atribut/bidang metadata dokumen Anda diperlakukan dan dicerna. Berikan lokasi Amazon S3 bucket untuk input dan output fungsi Lambda.

    Pergi ke bagian berikutnya untuk mengkonfigurasi penyimpanan vektor Anda.

  8. Pilih model untuk mengubah data Anda menjadi embeddings vektor.

    Buat toko vektor untuk memungkinkan Amazon Bedrock menyimpan, memperbarui, dan mengelola penyematan. Anda dapat dengan cepat membuat toko vektor baru atau memilih dari toko vektor yang didukung yang telah Anda buat. Jika Anda membuat penyimpanan vektor baru, koleksi pencarian vektor Amazon OpenSearch Tanpa Server dan indeks dengan bidang wajib disiapkan untuk Anda. Jika Anda memilih dari penyimpanan vektor yang didukung, Anda harus memetakan nama bidang vektor dan nama bidang metadata.

    Buka bagian berikutnya untuk meninjau konfigurasi basis pengetahuan Anda.

  9. Periksa detail basis pengetahuan Anda. Anda dapat mengedit bagian apa pun sebelum melanjutkan dan membuat basis pengetahuan Anda.

    catatan

    Waktu yang dibutuhkan untuk membuat basis pengetahuan tergantung pada jumlah data yang Anda konsumsi dan konfigurasi spesifik Anda. Ketika basis pengetahuan selesai dibuat, status basis pengetahuan berubah menjadi Siap.

    Setelah basis pengetahuan Anda siap atau selesai dibuat, sinkronkan sumber data Anda untuk pertama kalinya dan kapan pun Anda ingin memperbarui konten Anda. Pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.

API

Berikut ini adalah contoh konfigurasi untuk menghubungkan ke Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda. Anda mengonfigurasi sumber data menggunakan API dengan AWS CLI atau SDK yang didukung, seperti Python. Setelah menelepon CreateKnowledgeBase, Anda menelepon CreateDataSourceuntuk membuat sumber data dengan informasi koneksi Anda didataSourceConfiguration. Ingatlah untuk juga menentukan strategi/pendekatan chunking Anda vectorIngestionConfiguration dan kebijakan penghapusan data Anda di. dataDeletionPolicy

AWS Command Line Interface

aws bedrock create-data-source \ --name "S3 connector" \ --description "S3 data source connector for Amazon Bedrock to use content in S3" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://s3-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' s3-bedrock-connector-configuration.json { "s3Configuration": { "bucketArn": "arn:aws:s3:::bucket-name", "bucketOwnerAccountId": "000000000000", "inclusionPrefixes": [ ".*\\.pdf" ] }, "type": "S3" }