Merancang data lake untuk pertumbuhan dan skala padaAWS Cloud - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Merancang data lake untuk pertumbuhan dan skala padaAWS Cloud

Wei Shao, Amazon Web Services (AWS)

Oktober 2021 (riwayat dokumen)

Organizations semakin merancang dan membangun data lake di Amazon Web Services (AWS) Cloud sebagai bagian dari strategi modernisasi data mereka. Data lake dapat berupa repositori yang menyimpan data terstruktur dan tidak terstruktur Anda dalam skala apa pun dan membuatnya tersedia untuk berbagai pengguna internal dan eksternal.

Namun, dibutuhkan waktu dan upaya yang signifikan untuk menelan data ke data lake yang melayani kasus penggunaan bisnis Anda yang berkembang. Untuk membantu mengurangi biaya dan memaksimalkan nilai yang dihasilkan dari data, banyak organisasi merencanakan konsumsi data satu kali ke data lake mereka dan kemudian mengkonsumsi data ini beberapa kali. Merancang arsitektur data lake yang disesuaikan dengan produksi, berbagi, dan konsumsi data sangat penting untuk memberikan nilai kepada pemangku kepentingan bisnis ketika data lake Anda tumbuh.

Arsitektur data lake yang dapat diskalakan memberi organisasi Anda fondasi yang kuat untuk mendapatkan nilai dari data lake Anda sambil membawa lebih banyak data ke dalamnya. Dengan terus mendapatkan wawasan data tanpa diperlambat atau terganggu karena kendala skalabilitas, data lake yang dapat diskalakan juga membantu organisasi Anda tetap kompetitif.

Biasanya, data lake memiliki produsen data dan konsumen data. Produsen data membuat aset data dengan mengumpulkan, memproses, dan menyimpan data dari domain data mereka. Aset data kolektif ini membentuk konten data lake Anda. Produsen data dapat memilih untuk secara selektif berbagi aset data mereka dengan konsumen data danau data.

Data konsumen membutuhkan data dari produsen data untuk memenuhi kasus penggunaan bisnis mereka dan juga kadang-kadang dapat menggabungkan data ini dengan data mereka sendiri. Produsen data dan konsumen data biasanya, tetapi tidak selalu, merupakan bagian dari organisasi Anda. Yang penting, keduanya dapat menjadi produsen data atau konsumen data pada saat yang bersamaan.

Arsitektur data lake yang dapat diskalakan membantu Anda mencapai hasil berikut:

  • Produsen data onboard dalam skala besar tanpa mengharuskan mereka untuk mempertahankan seluruh proses berbagi data. Hal ini membantu produsen data onboard data mereka ke data lake dan fokus pada pengumpulan, pengolahan, dan penyimpanan data dari domain data mereka.

  • Memungkinkan konsumen data untuk mengakses data dari beberapa produsen data tanpa meningkatkan biaya keseluruhan dan biaya manajemen Anda.

Panduan ini menjelaskan tantangan penskalaan umum yang dapat terjadi ketika organisasi menumbuhkan data lake mereka, menyediakan arsitektur referensi data lake, dan menguraikan pendekatan untuk orientasi dan pemberian akses ke produsen data dan konsumen data. Arsitektur referensi data lake dalam panduan ini memanfaatkan berbagai fitur dan kemampuan yang disediakan oleh AWS Lake Formation. Panduan ini ditujukan untuk tim yang bertanggung jawab untuk merancang data lake diAWS Cloud, termasuk arsitek data perusahaan, arsitek platform data, desainer, atau prospek domain data.

Hasil bisnis yang ditargetkan

Anda harus mengharapkan tiga hasil berikut setelah merancang data lake untuk pertumbuhan dan skala padaAWS Cloud:

  • Biaya berbagi data dan konsumsi data yang lebih rendah di beberapa lini bisnis di organisasi Anda.

  • Pendekatan aman dan konsisten yang membantu organisasi Anda menyertakan produsen data eksternal dan berbagi data dengan mereka di data lake Anda.

  • Terus mendapatkan wawasan data tanpa diperlambat atau terganggu karena kendala skalabilitas.