Memahami pengiriman data di Amazon Data Firehose - Amazon Data Firehose

Mengirimkan aliran Amazon Data Firehose ke Apache Iceberg Tables di Amazon S3 sedang dalam pratinjau dan dapat berubah sewaktu-waktu.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memahami pengiriman data di Amazon Data Firehose

Saat Anda mengirim data ke aliran Firehose Anda, data tersebut secara otomatis dikirim ke tujuan yang Anda pilih. Tabel berikut menjelaskan pengiriman data ke tujuan yang berbeda.

Tujuan Detail
Amazon S3

Untuk pengiriman data ke Amazon S3, Firehose menggabungkan beberapa catatan masuk berdasarkan konfigurasi buffering aliran Firehose Anda. Kinesis Data Firehose kemudian memberikan catatan tersebut ke Amazon S3 sebagai objek Amazon S3. Secara default, Firehose menggabungkan data tanpa pembatas apa pun. Jika Anda ingin memiliki pembatas baris baru di antara catatan, Anda dapat menambahkan pembatas baris baru dengan mengaktifkan fitur dalam konfigurasi atau parameter Firehose console. API

Amazon Redshift

Untuk pengiriman data ke Amazon Redshift, Firehose pertama-tama mengirimkan data masuk ke bucket S3 Anda dalam format yang dijelaskan sebelumnya. Firehose kemudian mengeluarkan perintah Amazon COPY Redshift untuk memuat data dari bucket S3 ke cluster yang disediakan Amazon Redshift atau workgroup Amazon Redshift Serverless. Pastikan bahwa setelah Amazon Data Firehose menggabungkan beberapa catatan masuk ke objek Amazon S3, objek Amazon S3 dapat disalin ke klaster yang disediakan Amazon Redshift atau grup kerja Amazon Redshift Tanpa Server. Untuk informasi selengkapnya, lihat Parameter Format Data COPY Perintah Amazon Redshift.

OpenSearch Layanan dan Tanpa OpenSearch Server Untuk pengiriman data ke OpenSearch Layanan dan OpenSearch Tanpa Server, Amazon Data Firehose menyangga catatan masuk berdasarkan konfigurasi buffering aliran Firehose Anda. Kemudian menghasilkan permintaan massal OpenSearch Layanan atau OpenSearch Tanpa Server untuk mengindeks beberapa catatan ke kluster OpenSearch Layanan atau koleksi Tanpa OpenSearch Server Anda. Pastikan rekaman Anda UTF -8 dikodekan dan diratakan ke JSON objek satu baris sebelum Anda mengirimkannya ke Amazon Data Firehose. Selain itu, rest.action.multi.allow_explicit_index opsi untuk kluster OpenSearch Layanan Anda harus disetel ke true (default) untuk mengambil permintaan massal dengan indeks eksplisit yang ditetapkan per catatan. Untuk informasi selengkapnya, lihat Opsi Lanjutan Konfigurasi OpenSearch Layanan di Panduan Pengembang OpenSearch Layanan Amazon.
Splunk

Untuk pengiriman data ke Splunk, Amazon Data Firehose menggabungkan byte yang Anda kirim. Jika Anda ingin pembatas dalam data, seperti karakter baris baru, Anda harus memasukkannya sendiri. Pastikan bahwa Splunk dikonfigurasi untuk mengurai pembatas tersebut. Untuk mengarahkan ulang data yang dikirim ke bucket kesalahan S3 (cadangan S3) kembali ke Splunk, ikuti langkah-langkah yang disebutkan dalam dokumentasi Splunk.

HTTPtitik akhir Untuk pengiriman data ke HTTP titik akhir yang dimiliki oleh penyedia layanan pihak ketiga yang didukung, Anda dapat menggunakan layanan Amazon Lambda terintegrasi untuk membuat fungsi untuk mengubah rekaman masuk ke format yang sesuai dengan format yang diharapkan integrasi penyedia layanan. Hubungi penyedia layanan pihak ketiga yang HTTP titik akhirnya Anda pilih untuk tujuan Anda untuk mempelajari lebih lanjut tentang format rekaman yang diterima.
Kepingan salju

Untuk pengiriman data ke Snowflake, Amazon Data Firehose secara internal menyangga data selama satu detik dan menggunakan operasi streaming Snowflake untuk memasukkan data ke Snowflake. API Secara default, catatan yang Anda sisipkan disiram dan dimasukkan ke tabel Snowflake setiap detik. Setelah Anda melakukan panggilan insert, Firehose memancarkan CloudWatch metrik yang mengukur berapa lama waktu yang dibutuhkan untuk data untuk berkomitmen ke Snowflake. Firehose saat ini hanya mendukung satu JSON item sebagai muatan rekaman dan tidak mendukung array. JSON Pastikan bahwa muatan input Anda adalah JSON objek yang valid dan terbentuk dengan baik tanpa tanda kutip ganda, tanda kutip, atau karakter escape tambahan.

Setiap tujuan Firehose memiliki frekuensi pengiriman datanya sendiri. Untuk informasi selengkapnya, lihat Konfigurasikan petunjuk buffering.

Catatan duplikat

Amazon Data Firehose menggunakan at-least-once semantik untuk pengiriman data. Dalam beberapa keadaan, seperti ketika waktu pengiriman data habis, percobaan ulang pengiriman oleh Amazon Data Firehose mungkin memperkenalkan duplikat jika permintaan pengiriman data asli akhirnya berhasil. Ini berlaku untuk semua jenis tujuan yang didukung Amazon Data Firehose.