Amazon S3 - Amazon Kendra

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Amazon S3

Amazon S3 adalah layanan penyimpanan objek yang menyimpan data sebagai objek di dalam ember. Anda dapat menggunakan Amazon Kendra untuk mengindeks repositori Amazon S3 bucket dokumen Anda.

Awas

Amazon Kendra tidak menggunakan kebijakan bucket yang memberikan izin kepada Amazon Kendra kepala sekolah untuk berinteraksi dengan bucket S3. Sebaliknya, ia menggunakan IAM peran. Pastikan itu Amazon Kendra tidak disertakan sebagai anggota tepercaya dalam kebijakan bucket Anda untuk menghindari masalah keamanan data dalam pemberian izin secara tidak sengaja kepada prinsipal arbitrer. Namun, Anda dapat menambahkan kebijakan bucket untuk menggunakan Amazon S3 bucket di berbagai akun. Untuk informasi selengkapnya, lihat Kebijakan yang akan digunakan Amazon S3 di seluruh akun (dalam tab IAM peran S3, di bawah IAM peran untuk sumber data). Untuk informasi tentang IAM peran untuk sumber data S3, lihat IAM peran.

catatan

Amazon Kendra sekarang mendukung Amazon S3 konektor yang ditingkatkan.

Konsol telah ditingkatkan secara otomatis untuk Anda. Konektor baru apa pun yang Anda buat di konsol akan menggunakan arsitektur yang ditingkatkan. Jika Anda menggunakan API, Anda sekarang harus menggunakan TemplateConfigurationobjek alih-alih S3DataSourceConfiguration objek untuk mengonfigurasi konektor Anda.

Konektor yang dikonfigurasi menggunakan konsol lama dan arsitektur API akan terus berfungsi seperti yang dikonfigurasi. Namun, Anda tidak akan dapat mengedit atau memperbaruinya. Jika Anda ingin mengedit atau memperbarui konfigurasi konektor Anda, Anda harus membuat konektor baru.

Kami merekomendasikan untuk memigrasikan alur kerja konektor Anda ke versi yang ditingkatkan. Support untuk konektor yang dikonfigurasi menggunakan arsitektur lama dijadwalkan berakhir pada Juni 2024.

Anda dapat terhubung ke sumber Amazon S3 data menggunakan Amazon Kendra konsol atau TemplateConfigurationAPI.

catatan

Untuk membuat laporan status sinkronisasi untuk sumber Amazon S3 data Anda, lihat Memecahkan masalah sumber data.

Untuk memecahkan masalah konektor sumber data Amazon Kendra S3 Anda, lihat. Mengatasi masalah sumber data

Fitur yang didukung

  • Pemetaan lapangan

  • Kontrol akses pengguna

  • Filter inklusi/pengecualian

  • Sinkronisasi konten penuh dan inkremental

  • Cloud privat virtual (VPC)

Prasyarat

Sebelum Anda dapat menggunakan Amazon Kendra untuk mengindeks sumber data S3 Anda, buat perubahan ini di S3 dan AWS akun Anda.

Di S3, pastikan Anda memiliki:

  • Menyalin nama Amazon S3 ember Anda.

    catatan

    Bucket Anda harus berada di wilayah yang sama dengan Amazon Kendra indeks Anda dan indeks Anda harus memiliki izin untuk mengakses bucket yang berisi dokumen Anda.

  • Memeriksa setiap dokumen unik di S3 dan di seluruh sumber data lain yang Anda rencanakan untuk digunakan untuk indeks yang sama. Setiap sumber data yang ingin Anda gunakan untuk indeks tidak boleh berisi dokumen yang sama di seluruh sumber data. ID dokumen bersifat global untuk indeks dan harus unik per indeks.

Di AWS akun Anda, pastikan Anda memiliki:

Jika Anda tidak memiliki IAM peran yang ada, Anda dapat menggunakan konsol untuk membuat IAM peran baru saat Anda menghubungkan sumber data S3. Amazon Kendra Jika Anda menggunakan API, Anda harus memberikan ARN IAM peran yang ada dan ID indeks.

Instruksi koneksi

Untuk terhubung Amazon Kendra ke sumber data S3 Anda, Anda harus memberikan rincian yang diperlukan dari sumber data S3 Anda sehingga Amazon Kendra dapat mengakses data Anda. Jika Anda belum mengkonfigurasi S3 untuk Amazon Kendra, lihatPrasyarat.

Console

Untuk terhubung Amazon Kendra ke Amazon S3

  1. Masuk ke AWS Management Console dan buka Amazon Kendra konsol.

  2. Dari panel navigasi kiri, pilih Indeks dan kemudian pilih indeks yang ingin Anda gunakan dari daftar indeks.

    catatan

    Anda dapat memilih untuk mengonfigurasi atau mengedit pengaturan kontrol akses Pengguna di bawah Pengaturan indeks.

  3. Pada halaman Memulai, pilih Tambahkan sumber data.

  4. Pada halaman Tambahkan sumber data, pilih konektor S3, lalu pilih Tambah konektor. Jika menggunakan versi 2 (jika ada), pilih konektor S3 dengan tag “V2.0".

  5. Pada halaman Tentukan detail sumber data, masukkan informasi berikut:

    1. Dalam Nama dan deskripsi, untuk Nama sumber data —Masukkan nama untuk sumber data Anda. Anda dapat memasukkan tanda hubung tetapi bukan spasi.

    2. (Opsional) Deskripsi —Masukkan deskripsi opsional untuk sumber data Anda.

    3. Dalam Bahasa default —Pilih bahasa untuk memfilter dokumen Anda untuk indeks. Kecuali Anda menentukan sebaliknya, bahasa default ke bahasa Inggris. Bahasa yang ditentukan dalam metadata dokumen mengesampingkan bahasa yang dipilih.

    4. Di Tag, untuk Tambahkan tag baru —Sertakan tag opsional untuk mencari dan memfilter sumber daya Anda atau melacak AWS biaya Anda.

    5. Pilih Selanjutnya.

  6. Pada halaman Tentukan akses dan keamanan, masukkan informasi opsional berikut:

    1. IAM peran —Pilih peran yang sudah ada atau buat IAM IAM peran baru untuk mengakses kredensi repositori dan mengindeks konten Anda.

      catatan

      IAM peran yang digunakan untuk indeks tidak dapat digunakan untuk sumber data. Jika Anda tidak yakin apakah peran yang ada digunakan untuk indeks atau FAQ, pilih Buat peran baru untuk menghindari kesalahan.

    2. Virtual Private Cloud (VPC) —Anda dapat memilih untuk menggunakan VPC. Jika demikian, Anda harus menambahkan Subnet dan grup keamanan VPC.

    3. Pilih Selanjutnya.

  7. Pada halaman Konfigurasi pengaturan sinkronisasi, masukkan informasi berikut:

    1. Untuk lokasi sumber data —Tentukan jalur ke Amazon S3 bucket tempat data Anda disimpan. Pilih Browse S3 untuk memilih bucket S3 Anda.

    2. Untuk Ukuran file maksimum —Tentukan batas dalam MB untuk hanya merayapi file di bawah batas ini. Ukuran file maksimum yang Amazon Kendra dapat memungkinkan adalah 50 MB.

    3. Untuk (Opsional) Lokasi folder awalan file metadata —Tentukan jalur ke folder tempat bidang/atribut Anda dan metadata dokumen lainnya disimpan. Pilih Browse S3 untuk menemukan folder metadata Anda.

    4. Untuk (Opsional) Lokasi file konfigurasi daftar kontrol akses —Tentukan jalur ke file yang berisi struktur JSON pengguna Anda dan aksesnya ke dokumen. Pilih Browse S3 untuk menemukan file ACL Anda.

    5. (Opsional) Pilih kunci dekripsi —Pilih untuk menggunakan kunci dekripsi. Anda dapat memilih untuk menggunakan AWS KMS kunci yang ada.

    6. Untuk (Opsional) Konfigurasi tambahan —Tambahkan pola untuk menyertakan atau mengecualikan file tertentu. Semua jalur relatif terhadap bucket S3 lokasi sumber data.

    7. Mode sinkronisasi —Pilih cara memperbarui indeks saat konten sumber data berubah. Saat Anda menyinkronkan sumber data Amazon Kendra untuk pertama kalinya, semua konten dirayapi dan diindeks secara default. Anda harus menjalankan sinkronisasi penuh data Anda jika sinkronisasi awal Anda gagal, bahkan jika Anda tidak memilih sinkronisasi penuh sebagai opsi mode sinkronisasi Anda.

      • Sinkronisasi penuh: Indeks baru semua konten, ganti konten yang ada setiap kali sumber data Anda disinkronkan dengan indeks Anda.

      • Sinkronisasi baru, dimodifikasi, dihapus: Indeks hanya konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan indeks Anda. Amazon Kendra dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan mengindeks konten yang berubah sejak sinkronisasi terakhir.

    8. Di Jadwal lari Sinkronisasi, untuk Frekuensi —Pilih seberapa sering menyinkronkan konten sumber data Anda dan memperbarui indeks Anda.

    9. Pilih Selanjutnya.

  8. Pada halaman Setel pemetaan bidang, masukkan informasi opsional berikut:

    1. Pemetaan bidang default —Pilih dari bidang sumber data default Amazon Kendra yang dihasilkan yang ingin Anda petakan ke indeks Anda.

    2. Tambahkan bidang —Pilih untuk menambahkan bidang sumber data khusus untuk membuat nama bidang indeks untuk dipetakan dan tipe data bidang.

    3. Pilih Selanjutnya.

  9. Pada halaman Tinjau dan buat, periksa apakah informasi yang Anda masukkan sudah benar dan kemudian pilih Tambahkan sumber data. Anda juga dapat memilih untuk mengedit informasi Anda dari halaman ini. Sumber data Anda akan muncul di halaman Sumber data setelah sumber data berhasil ditambahkan.

API

Untuk terhubung Amazon Kendra ke Amazon S3

Anda harus menentukan JSON dari skema sumber data menggunakan API. TemplateConfiguration Anda harus memberikan informasi berikut ini:

  • Sumber data —Tentukan tipe sumber data seperti S3 saat Anda menggunakan skema TemplateConfigurationJSON. Tentukan juga sumber data seperti TEMPLATE saat Anda memanggil CreateDataSourceAPI.

  • BucketName—Nama ember yang berisi dokumen.

  • Mode sinkronisasi —Tentukan cara Amazon Kendra memperbarui indeks Anda saat konten sumber data Anda berubah. Saat Anda menyinkronkan sumber data Amazon Kendra untuk pertama kalinya, semua konten dirayapi dan diindeks secara default. Anda harus menjalankan sinkronisasi penuh data Anda jika sinkronisasi awal Anda gagal, bahkan jika Anda tidak memilih sinkronisasi penuh sebagai opsi mode sinkronisasi Anda. Anda dapat memilih antara:

    • FORCED_FULL_CRAWLuntuk mengindeks semua konten baru, mengganti konten yang ada setiap kali sumber data Anda disinkronkan dengan indeks Anda.

    • FULL_CRAWLuntuk mengindeks hanya konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan indeks Anda. Amazon Kendra dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan mengindeks konten yang berubah sejak sinkronisasi terakhir.

  • IAM role —Tentukan RoleArn kapan Anda menelepon CreateDataSource untuk memberikan IAM peran dengan izin untuk mengakses Secrets Manager rahasia Anda dan memanggil API publik yang diperlukan untuk konektor S3 dan. Amazon Kendra Untuk informasi selengkapnya, lihat IAM peran untuk sumber data S3.

Anda juga dapat menambahkan fitur opsional berikut:

  • Virtual Private Cloud (VPC) VpcConfiguration —Tentukan kapan Anda menelepon. CreateDataSource Untuk informasi selengkapnya, lihat Mengkonfigurasi Amazon Kendra untuk menggunakan Amazon VPC.

  • Filter inklusi dan pengecualian —Tentukan apakah akan menyertakan atau mengecualikan nama file tertentu, jenis file, jalur file. Anda menggunakan pola glob (pola yang dapat memperluas pola wildcard ke dalam daftar nama jalur yang cocok dengan pola yang diberikan). Sebagai contoh, lihat Penggunaan Kecualikan dan Sertakan Filter di Referensi Perintah AWS CLI.

  • Metadata dokumen dan konfigurasi kontrol akses —Tambahkan metadata dokumen dan file kontrol akses yang berisi informasi seperti URI sumber, pembuat dokumen, atau atribut/bidang dokumen kustom, dan pengguna Anda serta dokumen mana yang dapat mereka akses. Setiap file metadata berisi metadata tentang satu dokumen.

  • Pemetaan bidang —Pilih untuk memetakan bidang sumber data S3 Anda ke bidang indeks Anda. Amazon Kendra Untuk informasi lebih lanjut, lihat Memetakan bidang sumber data.

    catatan

    Bidang badan dokumen atau badan dokumen yang setara untuk dokumen Anda diperlukan Amazon Kendra untuk mencari dokumen Anda. Anda harus memetakan nama bidang badan dokumen Anda di sumber data Anda ke nama bidang indeks_document_body. Semua kolom lain bersifat opsional.

Untuk daftar kunci JSON penting lainnya untuk dikonfigurasi, lihat skema S3 template.

Pelajari selengkapnya

Untuk mempelajari lebih lanjut tentang mengintegrasikan Amazon Kendra dengan sumber data S3 Anda, lihat: