Kemiringan data - Layanan Terkelola untuk Apache Flink

Amazon Managed Service untuk Apache Flink sebelumnya dikenal sebagai Amazon Kinesis Data Analytics untuk Apache Flink.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kemiringan data

Aplikasi Flink dijalankan pada cluster secara terdistribusi. Untuk skala ke beberapa node, Flink menggunakan konsep aliran yang dikunci, yang pada dasarnya berarti bahwa peristiwa aliran dipartisi sesuai dengan kunci tertentu, misalnya, id pelanggan, dan Flink kemudian dapat memproses partisi yang berbeda pada node yang berbeda. Banyak operator Flink kemudian dievaluasi berdasarkan partisi ini, misalnya, Keyed Windows, Process Functions dan Async I/O.

Memilih kunci partisi sering tergantung pada logika bisnis. Pada saat yang sama, banyak praktik terbaik untuk, misalnya, DynamoDB dan Spark, sama-sama berlaku untuk Flink, termasuk:

  • memastikan kardinalitas kunci partisi yang tinggi

  • menghindari kemiringan dalam volume acara antar partisi

Anda dapat mengidentifikasi kemiringan di partisi dengan membandingkan catatan yang diterima/dikirim dari subtugas (yaitu, contoh operator yang sama) di dasbor Flink. Selain itu, Layanan Terkelola untuk pemantauan Apache Flink dapat dikonfigurasi untuk mengekspos metrik untuk numRecordsIn/Out dan numRecordsInPerSecond/OutPerSecond pada tingkat subtugas juga.