Mengunggah Data ke Domain Amazon CloudSearch - Amazon CloudSearch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengunggah Data ke Domain Amazon CloudSearch

penting

Sebelum mengunggah data ke CloudSearch domain Amazon, ikuti panduan berikut:

  • Kelompokkan dokumen ke dalam batch sebelum Anda mengunggahnya. Terus mengunggah batch yang hanya terdiri dari satu dokumen memiliki dampak negatif yang besar pada kecepatan Amazon CloudSearch dapat memproses pembaruan Anda. Sebagai gantinya, buat batch yang sedekat mungkin dengan batas dan unggah lebih jarang. Untuk informasi selengkapnya tentang ukuran batch maksimum dan frekuensi unggah, lihatMemahami CloudSearch Batas Amazon.

  • Dokumen domain dan titik akhir pencarian tetap sama untuk masa pakai domain. Anda harus men-cache titik akhir daripada mengambilnya sebelum setiap permintaan unggahan atau pencarian. Menanyakan layanan CloudSearch konfigurasi Amazon dengan menelepon aws cloudsearch describe-domains atau DescribeDomains sebelum setiap permintaan kemungkinan akan mengakibatkan permintaan Anda dibatasi.

Anda membuat kumpulan dokumen untuk menggambarkan data yang ingin Anda unggah ke CloudSearch domain Amazon. Kumpulan dokumen adalah kumpulan operasi tambah dan hapus yang mewakili dokumen yang ingin Anda tambahkan, perbarui, atau hapus dari domain Anda. Batch dapat dijelaskan dalam JSON atau XHTML. Saat Anda mengunggah batch dokumen ke domain, data diindeks secara otomatis sesuai dengan opsi pengindeksan domain.

Saat data Anda berubah, Anda mengunggah batch untuk menambah, mengubah, atau menghapus dokumen dari indeks Anda. Amazon CloudSearch menerapkan pembaruan terus menerus. Anda hanya perlu secara eksplisit mengindeks ulang data Anda ketika Anda membuat perubahan konfigurasi yang menempatkan domain Anda dalam NEEDS INDEXING status atau perlu memperbarui sugester.

Untuk mengunggah data ke domain Anda, itu harus diformat sebagai batch JSON atau XHTML yang valid. Bidang yang ditentukan dalam setiap dokumen harus sesuai dengan bidang indeks yang dikonfigurasi untuk domain. Namun, dokumen tidak harus berisi setiap bidang indeks yang dikonfigurasi. Untuk informasi tentang membuat kumpulan dokumen, lihatMempersiapkan Data Anda. Untuk informasi tentang mengonfigurasi bidang indeks untuk domain, lihatconfigure indexing options.

Anda ditagih untuk jumlah total kumpulan dokumen yang diunggah ke domain pencarian Anda, termasuk batch yang berisi operasi penghapusan. Untuk informasi selengkapnya tentang CloudSearch harga Amazon, lihat aws.amazon.com/cloudsearch/pricing/.

Anda dapat mengirimkan kumpulan dokumen ke domain menggunakanAmazon CloudSearch console,AWS CLI, atau dengan posting it directly ke endpoint layanan dokumen domain.

Untuk informasi selengkapnya tentang API layanan dokumen, lihatDocument Service API.

Unggahan Massal di Amazon CloudSearch

Batch dokumen dibatasi hingga satu batch setiap 10 detik dan 5 MB per batch. Untuk mempelajari lebih lanjut, lihat Batas. Namun, Anda dapat mengunggah batch secara paralel untuk mengurangi jumlah waktu yang diperlukan untuk mengunggah semua data Anda.

Untuk melakukan upload massal:

  • Setel jenis instans yang Anda inginkan ke jenis instans yang lebih besar daripada defaultsearch.small. Jumlah utas unggahan yang dapat Anda gunakan tergantung pada jenis contoh pencarian yang digunakan domain Anda dan sifat data dan opsi pengindeksan Anda. Jenis instans yang lebih besar memiliki kapasitas unggah yang lebih tinggi. Mencoba mengunggah batch secara paralel dengan search.small instance biasanya menghasilkan tingkat kesalahan 504 atau 507 yang tinggi. Untuk informasi selengkapnya tentang menyetel jenis instans yang diinginkan, lihatMengkonfigurasi Opsi Penskalaan di Amazon CloudSearch.

  • Mulai unggah data setelah perubahan konfigurasi Anda aktif. Jika Anda menemukan tingkat kesalahan 5xx yang tinggi, Anda perlu mengurangi tingkat unggah atau beralih ke jenis instans yang lebih besar. Jika Anda sudah menggunakan jenis instans terbesar, Anda dapat meningkatkan jumlah partisi yang diinginkan untuk lebih meningkatkan kapasitas unggah.

    penting

    Jika Anda mengirimkan sejumlah besar pembaruan saat domain Anda berada dalam status PEMROSESAN, itu dapat meningkatkan jumlah waktu yang diperlukan untuk pembaruan untuk diterapkan ke indeks pencarian Anda. Untuk menghindari kelambatan pembaruan ini, tunggu hingga domain Anda dalam status AKTIF sebelum memulai unggahan massal Anda.

  • Setelah selesai dengan upload massal, Anda dapat mengubah jenis instans yang diinginkan kembali ke jenis instans yang lebih kecil. Jika indeks Anda cocok dengan tipe yang lebih kecil, Amazon CloudSearch akan secara otomatis menskalakan domain Anda kembali. Amazon tidak CloudSearch akan menskalakan ke jenis instans yang lebih kecil dari jenis instans yang diinginkan yang dikonfigurasi untuk domain Anda.

Untuk kumpulan data kurang dari 1 GB data atau kurang dari satu juta dokumen 1 KB, contoh pencarian kecil harus cukup. Untuk mengunggah kumpulan data antara 1 GB dan 8 GB, sebaiknya setel jenis instans yang diinginkan search.large sebelum Anda mulai mengunggah. Untuk kumpulan data antara 8 GB dan 16 GB, mulailah dengan file. search.xlarge Untuk kumpulan data antara 16 GB dan 32 GB, mulailah dengan file. search.2xlarge Jika Anda memiliki lebih dari 32 GB untuk diunggah, pilih jenis search.2xlarge instans dan tingkatkan jumlah partisi yang diinginkan untuk mengakomodasi kumpulan data Anda. Setiap partisi dapat berisi hingga 32 GB data. Kirim Permintaan Batas Peningkatan Layanan jika Anda membutuhkan kapasitas unggah lebih besar atau memiliki lebih dari 500 GB untuk diindeks.

Mengunggah Data Menggunakan Konsol Amazon CloudSearch

Di CloudSearch konsol Amazon, Anda dapat mengunggah data dari sistem file lokal atau Amazon S3 ke domain Anda dari dasbor domain. Konsol dapat secara otomatis mengonversi jenis file berikut ke kumpulan dokumen selama proses pengunggahan:

  • Batch dokumen diformat dalam JSON atau XML.json, .xml.

  • Nilai Terpisah Koma (.csv)

  • Dokumen Teks (.txt)

Anda juga dapat mengonversi dan mengunggah item dari tabel DynamoDB. Untuk informasi selengkapnya, lihat Uploading DynamoDB Data.

catatan

Untuk mengunggah data dari Amazon S3 atau DynamoDB, Anda harus memiliki izin untuk mengakses layanan dan sumber daya yang ingin Anda unggah. Untuk informasi selengkapnya, lihat Menggunakan Kebijakan Bucket dan Kebijakan Pengguna dan Menggunakan IAM untuk Mengontrol Akses ke Sumber Daya DynamoDB.

File CSV diurai row-by-row dan dokumen terpisah dibuat untuk setiap baris. Semua jenis file lainnya diperlakukan sebagai satu dokumen. Untuk informasi selengkapnya tentang membuat batch dokumen secara otomatis, lihatMempersiapkan Data Anda.

Untuk mengirim data ke domain untuk pengindeksan
  1. Buka CloudSearch konsol Amazon di https://console.aws.amazon.com/cloudsearch/home.

  2. Di panel navigasi kiri, pilih Domain.

  3. Pilih nama domain Anda untuk membuka konfigurasi domain.

  4. Pilih Tindakan, Unggah dokumen.

  5. Pilih lokasi data yang ingin Anda unggah ke domain Anda:

    • Mesin lokal

    • Amazon S3

    • Amazon DynamoDB

    • Data sampel

    Jika Anda mengunggah data yang tidak diformat sebagai kumpulan dokumen, maka secara otomatis akan dikonversi selama proses pengunggahan.

    catatan

    Jika batch tidak valid, Amazon CloudSearch mengonversi konten menjadi kumpulan valid yang berisi satu bidang konten dan bidang metadata generik. Karena ini biasanya bukan bidang yang dikonfigurasi untuk domain, Anda akan mendapatkan kesalahan yang menyatakan bahwa bidang tidak ada.

  6. Unggah data Anda.

    1. Jika Anda mengunggah file lokal, pilih Pilih file untuk menemukan file yang akan diunggah.

    2. Jika Anda mengunggah objek dari Amazon S3, berikan URI bucket untuk diunggah.

    3. Jika Anda mengunggah item dari DynamoDB, pilih tabel untuk diunggah. Untuk membatasi unit kapasitas baca yang dapat dikonsumsi saat membaca dari tabel, masukkan persentase maksimum unit kapasitas baca. Untuk mulai membaca dari item tertentu, tentukan kunci hash mulai.

    4. Jika Anda mengunggah data sampel yang telah ditentukan sebelumnya, pilih kumpulan data yang akan digunakan.

  7. Pilih Lanjutkan.

  8. Tinjau dokumen yang akan diunggah dan pilih Unggah dokumen.

  9. Dalam Ringkasan Unggah, jika kumpulan dokumen telah dibuat secara otomatis dari data Anda, Anda dapat memilih Unduh kumpulan dokumen yang dihasilkan untuk mendapatkannya. Pilih Tutup untuk kembali ke dasbor domain.

Mengunggah Data Menggunakan AWS CLI

Anda menggunakan aws cloudsearch upload-documents perintah untuk mengirim batch dokumen ke domain pencarian Anda. Untuk informasi tentang menginstal dan menyiapkan AWS CLI, lihat AWS Command Line InterfacePanduan Pengguna.

Untuk mengirim batch dokumen ke domain untuk pengindeksan
  • Jalankan aws cloudsearchdomain upload-documents perintah untuk mengunggah batch Anda ke domain Anda:

    aws cloudsearchdomain upload-documents --endpoint-url http://doc-movies-y6gelr4lv3jeu4rvoelunxsl2e.us-east-1.cloudsearch.amazonaws.com --content-type application/json --documents document-batch.json { "status": "success", "adds": 5000, "deletes": 0 }

Memposting Dokumen ke Endpoint Layanan Dokumen CloudSearch Domain Amazon melalui HTTP

Anda menggunakan dokumen/batch sumber daya untuk memposting batch dokumen ke domain Anda untuk menambah, memperbarui, atau menghapus dokumen. Sebagai contoh:

curl -X POST --upload-file movie-data-2013.json doc-movies-123456789012.us-east-1.cloudsearch.amazonaws.com/2013-01-01/documents/batch --header "Content-Type:application/json"