Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
catatan
Firehose mendukung database sebagai sumber di semua kecuali Wilayah Wilayah AWSTiongkok, AWS GovCloud (US) Regions, dan Asia Pasifik (Malaysia). Fitur ini dalam pratinjau dan dapat berubah. Jangan menggunakannya untuk beban kerja produksi Anda.
Firehose mendukung pengiriman perubahan database ke Apache Iceberg Tables. Konfigurasikan pengaturan tujuan berikut untuk mengatur aliran Firehose dengan database sebagai sumber Anda.
Connect katalog data
Apache Iceberg membutuhkan katalog data untuk menulis ke Apache Iceberg Tables. Firehose terintegrasi dengan AWS Glue Data Catalog untuk Apache Iceberg Tables. Anda dapat menggunakan AWS Glue Data Catalog akun yang sama dengan aliran Firehose Anda atau di lintas akun dan di Wilayah yang sama dengan aliran Firehose Anda (default), atau di Wilayah yang berbeda.
Aktifkan pembuatan tabel secara otomatis
Jika Anda mengaktifkan opsi ini, Firehose secara otomatis membuat database, tabel, dan kolom yang diperlukan di tujuan target Anda dengan nama dan skema yang sama dengan basis data sumber. Jika Anda mengaktifkan opsi ini dan jika Firehose menemukan beberapa tabel dengan nama dan skema yang sama sudah ada, maka Firehose akan menggunakan tabel yang ada sebagai gantinya dan hanya membuat database, tabel, dan kolom yang hilang.
Jika Anda tidak mengaktifkan opsi ini, Firehose mencoba menemukan database, tabel, dan kolom yang diperlukan. Jika Firehose tidak dapat menemukannya, Firehose akan menimbulkan kesalahan dan mengirimkan data ke bucket kesalahan S3.
catatan
Agar Firehose berhasil mengirimkan data ke Iceberg Tables, database, tabel, dan nama kolom beserta skema harus benar-benar cocok. Jika nama objek dan skema database tidak cocok, Firehose akan melempar kesalahan dan mengirimkan data ke bucket kesalahan S3.
Untuk database MySQL, peta database sumber ke Database dan peta tabel sumber AWS Glue ke Tabel. AWS Glue
Untuk PostgreSQL, database sumber memetakan ke Database dan peta tabel sumber AWS Glue ke Tabel AWS Glue dengan nama. SchemaName_TableName
catatan
Untuk Tabel Amazon S3, Firehose tidak mendukung pembuatan tabel secara otomatis. Anda harus membuat Tabel S3 sebelum membuat aliran Firehose.
Aktifkan evolusi skema
Jika Anda mengaktifkan opsi ini, Firehose secara otomatis mengembangkan skema Apache Iceberg Tables ketika skema sumber berubah. Sebagai bagian dari evolusi skema, Firehose saat ini mendukung penambahan kolom baru. Misalnya, jika kolom baru ditambahkan ke tabel di sisi database sumber, Firehose secara otomatis mengambil perubahan tersebut dan menambahkan kolom baru ke Tabel Apache Iceberg yang sesuai.
Tentukan durasi coba lagi
Anda dapat menggunakan konfigurasi ini untuk menentukan durasi dalam detik yang Firehose harus mencoba lagi, jika mengalami kegagalan secara tertulis ke Apache Iceberg Tables di Amazon S3. Anda dapat mengatur nilai apa pun dari 0 hingga 7200 detik untuk melakukan percobaan ulang. Secara default, Firehose mencoba lagi selama 300 detik.
Menangani pengiriman atau pemrosesan yang gagal
Anda harus mengonfigurasi Firehose untuk mengirimkan catatan ke bucket cadangan S3 jika gagal memproses atau mengirimkan aliran setelah kedaluwarsa durasi percobaan ulang. Untuk ini, konfigurasikan bucket cadangan S3 dan awalan keluaran kesalahan bucket cadangan S3.
Konfigurasikan petunjuk buffer
Firehose menyangga data streaming yang masuk dalam memori ke ukuran tertentu (ukuran Buffering) dan untuk jangka waktu tertentu (interval Buffering) sebelum mengirimkannya ke Apache Iceberg Tables. Anda dapat memilih ukuran buffer 1—128 MiBs dan interval buffer 0-900 detik. Petunjuk buffer yang lebih tinggi menghasilkan jumlah penulisan S3 yang lebih sedikit, biaya pemadatan yang lebih sedikit karena file data yang lebih besar, dan eksekusi kueri yang lebih cepat tetapi dengan latensi yang lebih tinggi. Nilai petunjuk buffer yang lebih rendah mengirimkan data dengan latensi yang lebih rendah.
Konfigurasikan pengaturan lanjutan
Untuk pengaturan lanjutan, Anda dapat mengonfigurasi enkripsi sisi server, pencatatan kesalahan, izin, dan tag untuk Tabel Gunung Es Apache Anda. Untuk informasi selengkapnya, lihat Konfigurasikan pengaturan lanjutan. Anda harus menambahkan peran IAM yang Anda buat sebagai bagian dari Berikan akses Firehose untuk mereplikasi perubahan database ke Apache Iceberg Tables untuk menggunakan Apache Iceberg Tables sebagai tujuan. Firehose akan berperan untuk mengakses AWS Glue tabel dan menulis ke bucket Amazon S3.
Kami sangat menyarankan agar Anda mengaktifkan CloudWatch Log. Jika ada masalah dengan Firehose yang terhubung ke database atau mengambil snapshot tabel, Firehose akan melempar kesalahan dan log ke Log yang dikonfigurasi. Ini adalah satu-satunya mekanisme yang memberi tahu Anda tentang kesalahan.
Pembuatan aliran Firehose dapat memakan waktu beberapa menit untuk diselesaikan. Setelah berhasil membuat aliran Firehose, Anda dapat mulai memasukkan data ke dalamnya dan dapat melihat data di tabel Apache Iceberg.
catatan
Konfigurasikan hanya satu aliran Firehose untuk satu database. Memiliki beberapa aliran Firehose untuk satu database menciptakan beberapa konektor ke database, yang memengaruhi kinerja database.
Setelah aliran Firehose dibuat, status awal tabel yang ada akan menjadi snapshot IN_PROGRESS. Jangan mengubah skema tabel sumber saat status snapshot disetel ke IN_PROGRESS. Jika Anda mengubah skema tabel saat snapshot sedang berlangsung, Firehose melewatkan snapshot tabel. Ketika proses snapshot selesai, statusnya berubah menjadi LENGKAP.