Pengantar
Bisnis saat ini menerima data dalam skala besar dan kecepatan tinggi karena pertumbuhan sumber data yang melonjak yang terus menghasilkan aliran data. Apakah itu data log dari server aplikasi, data clickstream dari situs web dan aplikasi seluler, atau data telemetri dari perangkat Internet untuk Segala (IoT), semuanya berisi informasi yang dapat membantu Anda mempelajari tentang apa yang dilakukan pelanggan, aplikasi, dan produk Anda saat ini.
Memiliki kemampuan memproses dan menganalisis data ini secara waktu nyata sangat penting untuk melakukan berbagai hal seperti terus memantau aplikasi Anda guna memastikan waktu aktif layanan yang tinggi serta mempersonalisasi penawaran promosi dan rekomendasi produk. Pemrosesan waktu nyata dan hampir waktu nyata juga dapat membuat kasus penggunaan umum lainnya, seperti analitik situs web dan machine learning, lebih akurat dan dapat ditindaklanjuti dengan membuat data tersedia untuk aplikasi ini dalam hitungan detik atau menit, bukan jam atau hari.
Skenario aplikasi waktu nyata dan hampir waktu nyata
Anda dapat menggunakan layanan data pengaliran untuk aplikasi waktu nyata dan hampir waktu nyata seperti pemantauan aplikasi, deteksi penipuan, dan papan peringkat langsung. Kasus penggunaan waktu nyata memerlukan latensi ujung ke ujung milidetik – dari penyerapan, pemrosesan, hingga mengirimkan hasil ke penyimpanan data target dan sistem lainnya. Misalnya, Netflix menggunakan Amazon Kinesis Data Streams
Kasus penggunaan hampir waktu nyata yang umum mencakup analitik pada penyimpanan data untuk ilmu data dan machine learning (ML). Anda dapat menggunakan solusi data pengaliran untuk terus memuat data waktu nyata ke danau data Anda. Anda kemudian dapat memperbarui model ML secara lebih sering seiring data baru tersedia, sehingga memastikan keakuratan dan keandalan output. Misalnya, Zillow menggunakan Kinesis Data Streams untuk mengumpulkan catatan data publik dan listingan Multiple Listing Service (MLS), lalu memberikan perkiraan nilai rumah yang paling terbaru secara hampir waktu nyata kepada pembeli dan penjual rumah. ZipRecruiter menggunakan Amazon MSK
Perbedaan antara pemrosesan batch dan aliran
Anda memerlukan serangkaian alat yang berbeda untuk mengumpulkan, menyiapkan, dan memproses data pengaliran waktu nyata daripada alat yang telah Anda gunakan secara tradisional untuk analitik batch. Dengan analitik tradisional, Anda mengumpulkan data, memuatnya secara berkala ke dalam basis data, dan menganalisisnya dalam hitungan jam, hari, atau minggu. Menganalisis data waktu nyata membutuhkan pendekatan yang berbeda. Aplikasi pemrosesan aliran terus memproses data secara waktu nyata, bahkan sebelum data disimpan. Data pengaliran dapat masuk dengan kecepatan yang tinggi dan volume data dapat bervariasi naik dan turun kapan saja. Platform pemrosesan data aliran harus mampu menangani kecepatan dan variabilitas data yang masuk dan memprosesnya saat data tiba, sering kali jutaan hingga ratusan juta peristiwa per jam.