Pengantar - Solusi Data Pengaliran di AWS dengan Amazon Kinesis

Pengantar

Bisnis saat ini menerima data dalam skala besar dan kecepatan tinggi karena pertumbuhan sumber data yang melonjak yang terus menghasilkan aliran data. Apakah itu data log dari server aplikasi, data clickstream dari situs web dan aplikasi seluler, atau data telemetri dari perangkat Internet untuk Segala (IoT), semuanya berisi informasi yang dapat membantu Anda mempelajari tentang apa yang dilakukan pelanggan, aplikasi, dan produk Anda saat ini.

Memiliki kemampuan memproses dan menganalisis data ini secara waktu nyata sangat penting untuk melakukan berbagai hal seperti terus memantau aplikasi Anda guna memastikan waktu aktif layanan yang tinggi serta mempersonalisasi penawaran promosi dan rekomendasi produk. Pemrosesan waktu nyata dan hampir waktu nyata juga dapat membuat kasus penggunaan umum lainnya, seperti analitik situs web dan machine learning, lebih akurat dan dapat ditindaklanjuti dengan membuat data tersedia untuk aplikasi ini dalam hitungan detik atau menit, bukan jam atau hari.

Skenario aplikasi waktu nyata dan hampir waktu nyata

Anda dapat menggunakan layanan data pengaliran untuk aplikasi waktu nyata dan hampir waktu nyata seperti pemantauan aplikasi, deteksi penipuan, dan papan peringkat langsung. Kasus penggunaan waktu nyata memerlukan latensi ujung ke ujung milidetik – dari penyerapan, pemrosesan, hingga mengirimkan hasil ke penyimpanan data target dan sistem lainnya. Misalnya, Netflix menggunakan Amazon Kinesis Data Streams untuk memantau komunikasi di antara semua aplikasinya sehingga dapat mendeteksi dan memperbaiki permasalahan dengan cepat, sehingga memastikan waktu aktif layanan dan ketersediaan yang tinggi bagi pelanggannya. Meskipun kasus penggunaan yang paling umum berlaku adalah pemantauan performa aplikasi, ada peningkatan jumlah aplikasi waktu nyata dalam teknologi iklan, game, dan IoT yang termasuk dalam kategori ini.

Kasus penggunaan hampir waktu nyata yang umum mencakup analitik pada penyimpanan data untuk ilmu data dan machine learning (ML). Anda dapat menggunakan solusi data pengaliran untuk terus memuat data waktu nyata ke danau data Anda. Anda kemudian dapat memperbarui model ML secara lebih sering seiring data baru tersedia, sehingga memastikan keakuratan dan keandalan output. Misalnya, Zillow menggunakan Kinesis Data Streams untuk mengumpulkan catatan data publik dan listingan Multiple Listing Service (MLS), lalu memberikan perkiraan nilai rumah yang paling terbaru secara hampir waktu nyata kepada pembeli dan penjual rumah. ZipRecruiter menggunakan Amazon MSK untuk alur pencatatan log peristiwa mereka, yang merupakan komponen infrastruktur penting yang mengumpulkan, menyimpan, dan terus memproses lebih dari enam miliar peristiwa per hari dari marketplace lowongan kerja ZipRecruiter.

Perbedaan antara pemrosesan batch dan aliran

Anda memerlukan serangkaian alat yang berbeda untuk mengumpulkan, menyiapkan, dan memproses data pengaliran waktu nyata daripada alat yang telah Anda gunakan secara tradisional untuk analitik batch. Dengan analitik tradisional, Anda mengumpulkan data, memuatnya secara berkala ke dalam basis data, dan menganalisisnya dalam hitungan jam, hari, atau minggu. Menganalisis data waktu nyata membutuhkan pendekatan yang berbeda. Aplikasi pemrosesan aliran terus memproses data secara waktu nyata, bahkan sebelum data disimpan. Data pengaliran dapat masuk dengan kecepatan yang tinggi dan volume data dapat bervariasi naik dan turun kapan saja. Platform pemrosesan data aliran harus mampu menangani kecepatan dan variabilitas data yang masuk dan memprosesnya saat data tiba, sering kali jutaan hingga ratusan juta peristiwa per jam.