(Pratinjau) Impor dari Amazon S3 Vektor ke Tanpa Server OpenSearch - OpenSearch Layanan Amazon

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

(Pratinjau) Impor dari Amazon S3 Vektor ke Tanpa Server OpenSearch

penting

Integrasi Vektor Amazon S3 dengan OpenSearch Layanan dalam rilis pratinjau dan dapat berubah sewaktu-waktu.

Amazon S3 Vectors menghadirkan toko objek cloud pertama dengan dukungan asli untuk menyimpan dan menanyakan vektor. Vektor S3 menyediakan penyimpanan vektor yang hemat biaya, elastis, dan tahan lama yang dapat ditanyakan berdasarkan makna dan kesamaan semantik. Ini memberikan waktu respons kueri sub-detik dan biaya hingga 90% lebih rendah untuk mengunggah, menyimpan, dan menanyakan vektor.

Vektor Amazon S3 memperkenalkan bucket vektor S3, yang dapat Anda gunakan untuk menyimpan, mengakses, dan menanyakan data vektor tanpa menyediakan infrastruktur apa pun. Di dalam bucket vektor, Anda dapat mengatur data vektor Anda dalam indeks vektor. Bucket vektor Anda dapat memiliki beberapa indeks vektor, dan setiap indeks vektor dapat menampung jutaan vektor. Untuk informasi selengkapnya, lihat Bekerja dengan Vektor Amazon S3 dan bucket vektor di Panduan Pengguna Amazon S3.

Setiap vektor terdiri dari:

  • Kunci unik

  • Data vektor

  • Metadata opsional dalam format JSON

Indeks vektor mendukung fungsi jarak Euclidean dan Cosine untuk operasi pencarian kesamaan.

catatan

Keuntungan utama dari bucket vektor adalah kemampuannya untuk menyimpan kumpulan data besar dengan biaya yang sangat rendah sambil menyediakan akses API langsung untuk operasi vektor.

Untuk informasi selengkapnya tentang bucket vektor Amazon S3, termasuk cara membuatnya, lihat Bekerja dengan Vektor Amazon S3 dan bucket vektor di Panduan Pengguna Amazon S3. Untuk informasi selengkapnya tentang integrasi dengan OpenSearch Layanan di luar apa yang dijelaskan dalam topik ini, lihat Menggunakan Vektor S3 dengan Layanan OpenSearch

Anda dapat menggunakan Vektor S3 dengan OpenSearch Layanan Amazon untuk menurunkan biaya penyimpanan vektor saat kueri lebih jarang, dan kemudian dengan cepat memindahkan kumpulan data tersebut OpenSearch saat permintaan meningkat atau untuk meningkatkan kemampuan pencarian.

OpenSearch Layanan terintegrasi dengan Vektor Amazon S3 untuk memberikan peningkatan kinerja dan fungsionalitas di luar apa yang ditawarkan bucket vektor Amazon S3 sendiri. Pertimbangkan integrasi ini saat Anda membutuhkan:

  • Throughput kueri yang lebih tinggi

  • Latensi pencarian sub-detik

  • Kemampuan analitik tingkat lanjut seperti agregasi

  • Pencarian hibrida menggabungkan data teks dan vektor

Integrasi ini sangat berguna ketika beberapa aplikasi mengkonsumsi data vektor yang sama dengan persyaratan kinerja yang berbeda. Anda dapat meminta beberapa aplikasi berinteraksi langsung dengan bucket vektor Amazon S3 untuk kasus penggunaan yang sensitif terhadap biaya, sementara yang lain memanfaatkan OpenSearch integrasi untuk operasi kritis kinerja.

Arsitektur integrasi

Integrasi menggunakan Amazon OpenSearch Ingestion (OSI) sebagai jalur data antara indeks vektor Amazon S3 dan koleksi vektor Amazon Tanpa Server. OpenSearch OpenSearch Ingestion secara otomatis mengekspor data vektor dari indeks vektor yang Anda tentukan dan memasukkannya ke dalam koleksi vektor OpenSearch Tanpa Server untuk operasi pencarian berkinerja tinggi.

catatan

Setelah ekspor, data Anda masih ada dalam indeks vektor S3. Anda memiliki dua salinan data.

Setiap indeks vektor memetakan ke indeks yang sesuai dalam koleksi OpenSearch Layanan. Integrasi:

  • Mempertahankan dimensi vektor

  • Mempertahankan metadata

  • Mengoptimalkan struktur data untuk OpenSearch kemampuan pencarian vektor

Setelah konfigurasi, OpenSearch Ingestion memulai proses ekspor data dengan menggunakan vektor dari indeks vektor yang ditentukan menggunakan Amazon S3 API. ListVectors Layanan memproses vektor secara paralel untuk mengoptimalkan kecepatan konsumsi sambil menghormati batas penskalaan dari Ingestion dan Amazon Serverless. OpenSearch OpenSearch

Selama konsumsi, layanan:

  • Mengubah data vektor agar sesuai dengan format yang diharapkan untuk Service OpenSearch

  • Mempertahankan informasi penting termasuk nilai vektor, metadata, dan metrik jarak

  • Menangani skenario kegagalan melalui mekanisme coba ulang yang cerdas

  • Menempatkan catatan bermasalah di bucket Amazon S3 yang digunakan sebagai antrian surat mati untuk analisis selanjutnya

Integrasi menangani kumpulan data besar secara efisien, dengan kinerja tergantung pada dimensi vektor, ukuran kumpulan data, dan batas penskalaan yang dikonfigurasi. OSI dapat meningkatkan hingga 16 pekerja per pipa, sementara OpenSearch Tanpa Server secara otomatis menyesuaikan kapasitas berdasarkan permintaan konsumsi. Secara default, OpenSearch meningkatkan maxSearch OpenSearch Computational Unit (OCU) di sisi Tanpa OpenSearch Server menjadi 100.

catatan

Integrasi memprioritaskan efisiensi biaya melalui:

  • Shutdown pipa otomatis setelah ekspor selesai

  • OpenSearch Penskalaan koleksi tanpa server

  • Pay-per-use model sumber daya

Izin IAM yang diperlukan

Integrasi memerlukan konfigurasi izin IAM yang cermat untuk memungkinkan komunikasi yang aman antar layanan. OpenSearch Penyerapan memerlukan izin untuk membaca dari indeks vektor Amazon S3, menulis ke koleksi vektor OpenSearch Layanan, dan mengelola kebijakan keamanan terkait.

Saat Anda mengaktifkan integrasi menggunakan prosedur nanti dalam topik ini, Anda dapat memilih salah satu opsi berikut untuk pengelolaan izin:

  • Izinkan sistem untuk secara otomatis membuat peran layanan dengan izin yang diperlukan

  • Memberikan peran yang ada yang memenuhi persyaratan

Peran yang dibuat secara otomatis mencakup kebijakan untuk:

  • Mengakses indeks vektor Amazon S3 APIs

  • Mengelola operasi pengumpulan OpenSearch Layanan

  • Menangani operasi antrian surat mati untuk upaya konsumsi yang gagal

Jika Anda memilih untuk menentukan peran yang ada, verifikasi bahwa peran tersebut memiliki izin IAM berikut:

(Wajib): Izin pipa data antara OpenSearch Ingestion dan Serverless OpenSearch

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowAPIs", "Effect": "Allow", "Action": [ "aoss:APIAccessAll", "aoss:BatchGetCollection" ], "Resource": [ "arn:aws:aoss:*:account-id:collection/collection-id" ] }, { "Sid": "allowSecurityPolicy", "Effect": "Allow", "Action": [ "aoss:CreateSecurityPolicy", "aoss:UpdateSecurityPolicy", "aoss:GetSecurityPolicy" ], "Resource": "*", "Condition":{ "StringLike":{ "aoss:collection": [ "collection-name" ] }, "StringEquals": { "aws:ResourceAccount": [ "account-id" ] } } } ] }

(Wajib): Izin konsumsi data antara OpenSearch Ingestion dan antrian surat mati Amazon S3

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "s3Access", "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::bucket/*" ] } ] }

(Wajib): Izin konsumsi data antara OpenSearch Ingestion dan Amazon S3 Vektor

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowS3VectorIndexAccess", "Effect": "Allow", "Action": [ "s3vectors:ListVectors", "s3vectors:GetVectors" ], "Resource": [ "arn:aws:s3vectors:region:account-id:bucket/bucket-name/index/index-name" ] } ] }

(Diperlukan jika AWS KMS enkripsi diaktifkan): Izin dekripsi untuk komunikasi antara OpenSearch Ingestion dan Amazon S3 Vektor

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowS3VectorDecryptionOfCustomManagedKey", "Effect": "Allow", "Action": [ "kms:Decrypt" ], "Resource": [ "arn:aws:kms:region:account-id:key/key-id" ], "Condition": { "StringEquals": { "kms:ViaService": "s3vectors.region.amazonaws.com", "kms:EncryptionContext:aws:s3vectors:arn": "arn:aws:s3vectors:region:account-id:bucket/bucket-name" } } } ] }

Mengkonfigurasi integrasi Vektor Amazon S3 dengan OpenSearch

Gunakan prosedur berikut untuk mengonfigurasi integrasi Vektor Amazon S3 dengan Tanpa Server. OpenSearch

catatan

Jika Anda memulai proses mengonfigurasi integrasi dari konsol Amazon S3 dengan memilih opsi Ekspor OpenSearch ke di halaman bucket Vector, beberapa langkah dalam prosedur berikut tidak berlaku, seperti yang tercantum dalam prosedur.

Untuk mengonfigurasi integrasi Vektor Amazon S3 dengan Tanpa Server OpenSearch
  1. Buka halaman indeks vektor Impor S3 ke mesin OpenSearch vektor di konsol Amazon OpenSearch Service. Halaman akan ditampilkan secara otomatis jika Anda mengklik Ekspor ke OpenSearch di konsol Amazon S3. Jika Anda memulai di OpenSearch konsol, pilih Integrasi di navigasi kiri dan kemudian pilih Impor indeks vektor S3.

  2. Di bagian Sumber, jika Anda memulai di konsol Amazon S3, verifikasi bahwa nama indeks vektor dan Nama Sumber Daya Amazon (ARN) sudah ditentukan. Jika Anda mulai di OpenSearch konsol, masukkan indeks ARN di bidang ARN indeks vektor S3.

  3. Di bagian Akses layanan, pilih opsi. Jika Anda memilih peran yang ada, verifikasi bahwa ia memiliki semua izin yang diperlukan untuk integrasi seperti yang dijelaskan dalamIzin IAM yang diperlukan.

  4. (Opsional) Perluas Pengaturan tambahan. Untuk Aktifkan redundansi (replika aktif) kami sarankan untuk membiarkan opsi ini dipilih untuk lingkungan produksi. Saat Anda membuat koleksi pertama, OpenSearch Tanpa Server membuat instance dua OCUs —satu untuk pengindeksan dan satu untuk penelusuran. Untuk memastikan ketersediaan tinggi, ia juga meluncurkan satu set node siaga di Availability Zone lain. Untuk tujuan pengembangan dan pengujian, Anda dapat menonaktifkan pengaturan Aktifkan redundansi untuk koleksi, yang menghilangkan dua replika siaga dan hanya membuat instance dua. OCUs Secara default, replika aktif redundan diaktifkan, yang berarti bahwa total empat OCUs dipakai untuk koleksi pertama dalam akun.

    Untuk Tambahkan AWS KMS kunci yang dikelola pelanggan untuk vektor Amazon OpenSearch Tanpa Server, pilih opsi ini untuk mengenkripsi data dalam koleksi vektor menggunakan kunci terkelola pelanggan. Secara default, OpenSearch menggunakan file Kunci yang dikelola AWS.

  5. Jika Anda memulai proses ini dengan mengklik OpenSearch opsi Ekspor ke di konsol Amazon S3, bagian Ekspor detail mencantumkan langkah-langkah yang OpenSearch akan diambil selanjutnya. Saat Anda siap, pilih Ekspor.

    Jika Anda memulai proses ini di konsol OpenSearch Layanan, bagian Impor detail mencantumkan langkah-langkah yang OpenSearch akan diambil selanjutnya. Jika sudah siap, pilih Impor.

    OpenSearch membuka halaman riwayat untuk menampilkan semua exports/imports indeks vektor Amazon S3 ke OpenSearch indeks Tanpa Server.

Setelah konsumsi berhasil, OSI secara otomatis menghentikan pipa untuk mencegah biaya yang tidak perlu sambil mempertahankan data yang diekspor. OpenSearch Anda dapat memantau kemajuan integrasi melalui CloudWatch metrik dan mengakses log terperinci untuk pemecahan masalah.

OpenSearch Koleksi tetap aktif dan tersedia untuk kueri setelah konsumsi awal selesai. Anda dapat melakukan:

  • Pencarian kesamaan

  • Agregasi

  • Operasi analitik