Merancang data lake untuk pertumbuhan dan skala di AWS Cloud

Wei Shao, Amazon Web Services ()AWS

Oktober 2021 (riwayat dokumen)

Organizations semakin merancang dan membangun data lake di Amazon Web Services (AWS) Cloud sebagai bagian dari strategi modernisasi data mereka. Data lake dapat berupa repositori yang menyimpan data terstruktur dan tidak terstruktur Anda pada skala apa pun dan membuatnya tersedia untuk berbagai pengguna internal dan eksternal.

Namun, dibutuhkan waktu dan upaya yang signifikan untuk menyerap data ke dalam data lake yang melayani kasus penggunaan bisnis Anda yang sedang berkembang. Untuk membantu mengurangi biaya dan memaksimalkan nilai yang dihasilkan dari data, banyak organisasi merencanakan konsumsi data satu kali ke dalam data lake mereka dan kemudian mengkonsumsi data ini beberapa kali. Merancang arsitektur data lake yang disesuaikan dengan produksi, berbagi, dan konsumsi data sangat penting untuk memberikan nilai kepada pemangku kepentingan bisnis saat data lake Anda tumbuh.

Arsitektur data lake yang dapat diskalakan memberi organisasi Anda fondasi yang kuat untuk mendapatkan nilai dari data lake Anda sambil membawa lebih banyak data ke dalamnya. Dengan terus mendapatkan wawasan data tanpa diperlambat atau terganggu karena kendala skalabilitas, data lake yang dapat diskalakan juga membantu organisasi Anda tetap kompetitif.

Biasanya, danau data memiliki produsen data dan konsumen data. Produsen data membuat aset data dengan mengumpulkan, memproses, dan menyimpan data dari domain data mereka. Aset data kolektif ini membentuk konten danau data Anda. Produsen data dapat memilih untuk secara selektif berbagi aset data mereka dengan konsumen data lake data.

Konsumen data membutuhkan data dari produsen data untuk memenuhi kasus penggunaan bisnis mereka dan kadang-kadang juga dapat menggabungkan data ini dengan data mereka sendiri. Produsen data dan konsumen data biasanya, tetapi tidak selalu, bagian dari organisasi Anda. Yang penting, keduanya dapat menjadi produsen data atau konsumen data pada saat yang bersamaan.

Arsitektur data lake yang dapat diskalakan membantu Anda mencapai hasil berikut:

Produsen data onboard dalam skala besar tanpa mengharuskan mereka untuk mempertahankan seluruh proses berbagi data. Ini membantu produsen data memasukkan data mereka ke dalam data lake dan fokus pada pengumpulan, pemrosesan, dan penyimpanan data dari domain data mereka.
Memungkinkan konsumen data untuk mengakses data dari beberapa produsen data tanpa meningkatkan biaya keseluruhan dan overhead manajemen Anda.

Panduan ini menjelaskan tantangan penskalaan umum yang dapat terjadi ketika organisasi menumbuhkan data lake mereka, menyediakan arsitektur referensi danau data, dan menguraikan pendekatan untuk orientasi dan pemberian akses ke produsen data dan konsumen data. Arsitektur referensi danau data dalam panduan ini memanfaatkan berbagai fitur dan kemampuan yang disediakan oleh AWS Lake Formation. Panduan ini ditujukan untuk tim yang bertanggung jawab untuk merancang data lake di AWS Cloud, termasuk arsitek data perusahaan, arsitek platform data, desainer, atau pemimpin domain data.

Hasil bisnis yang ditargetkan

Anda harus mengharapkan tiga hasil berikut setelah merancang data lake untuk pertumbuhan dan skala pada AWS Cloud:

Turunkan biaya berbagi data dan konsumsi data di berbagai lini bisnis di organisasi Anda.
Pendekatan yang aman dan konsisten yang membantu organisasi Anda memasukkan produsen data eksternal dan berbagi data dengan mereka di danau data Anda.
Terus mendapatkan wawasan data tanpa diperlambat atau terganggu karena kendala skalabilitas.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Tantangan penskalaan umum