Persiapan dan pembersihan data

Persiapan dan pembersihan data adalah salah satu tahapan siklus hidup data yang paling penting namun paling memakan waktu. Diagram berikut menunjukkan bagaimana tahap persiapan dan pembersihan data sesuai dengan otomatisasi rekayasa data dan siklus hidup kontrol akses.

Berikut adalah beberapa contoh persiapan atau pembersihan data:

Memetakan kolom teks ke kode
Mengabaikan kolom kosong
Mengisi kolom data kosong dengan0,None, atau ''
Menganonimkan atau menutupi informasi identitas pribadi (PII)

Jika Anda memiliki beban kerja besar yang memiliki beragam data, sebaiknya gunakan Amazon EMR atau AWS Glue untuk tugas persiapan dan pembersihan data Anda. Amazon EMR dan AWS Glue keduanya bekerja dengan data tidak terstruktur, semi-terstruktur, dan relasional, dan keduanya dapat menggunakan Apache Spark untuk membuat atau bekerja dengan DataFrame pemrosesan horizontal. DynamicFrame Selain itu, Anda dapat menggunakan AWS Glue DataBrew untuk membersihkan dan memproses data dengan pendekatan tanpa kode. Selain itu, DataBrew dapat membuat profil kumpulan data Anda dengan statistik kolom, menyediakan garis keturunan data, dan menyertakan aturan kualitas data untuk semua atau kolom tertentu.

Untuk beban kerja yang lebih kecil yang tidak memerlukan pemrosesan terdistribusi dan dapat diselesaikan dalam waktu kurang dari 15 menit, kami menyarankan Anda menggunakan AWS Lambda untuk persiapan dan pembersihan data. Lambda adalah opsi hemat biaya dan ringan untuk beban kerja yang lebih kecil. Untuk data yang sangat aman yang tidak dapat masuk ke cloud, sebaiknya Anda melakukan anonimisasi data pada instans Amazon Elastic Compute Cloud (Amazon EC2) dengan menggunakan server AWS Outposts.

Sangat penting untuk memilih layanan AWS yang tepat untuk persiapan dan pembersihan data dan untuk memahami pengorbanan yang terkait dengan pilihan Anda. Misalnya, pertimbangkan skenario di mana Anda memilih dari AWS Glue, DataBrew, dan Amazon EMR. AWS Glue sangat ideal jika pekerjaan ETL jarang terjadi. Pekerjaan yang jarang terjadi sekali sehari, seminggu sekali, atau sebulan sekali. Anda selanjutnya dapat berasumsi bahwa insinyur data Anda mahir dalam menulis kode Spark (untuk kasus penggunaan data besar) atau skrip secara umum. Jika pekerjaan lebih sering, menjalankan AWS Glue terus-menerus bisa menjadi mahal. Dalam hal ini, Amazon EMR menyediakan kemampuan pemrosesan terdistribusi dan menawarkan versi tanpa server dan berbasis server. Jika teknisi data Anda tidak memiliki keahlian yang tepat atau jika Anda harus memberikan hasil dengan cepat, maka DataBrew itu adalah pilihan yang baik. DataBrew dapat mengurangi upaya untuk mengembangkan kode dan mempercepat persiapan data dan proses pembersihan.

Setelah pemrosesan selesai, data dari proses ETL disimpan di AWS. Pilihan penyimpanan tergantung pada jenis data yang Anda hadapi. Misalnya, Anda dapat bekerja dengan data non-relasional seperti data grafik, data pasangan nilai kunci, gambar, file teks, atau data terstruktur relasional.

Seperti yang ditunjukkan pada diagram berikut, Anda dapat menggunakan layanan AWS berikut untuk penyimpanan data:

Amazon S3 menyimpan data tidak terstruktur atau data semi-terstruktur (misalnya, file Apache Parquet, gambar, dan video).
Amazon Neptunus menyimpan kumpulan data grafik yang dapat Anda kueri dengan menggunakan SPARQL atau GREMLIN.
Amazon Keyspaces (untuk Apache Cassandra) menyimpan dataset yang kompatibel dengan Apache Cassandra.
Amazon Aurora menyimpan kumpulan data relasional.
Amazon DynamoDB menyimpan nilai kunci atau data dokumen dalam database NoSQL.
Amazon Redshift menyimpan beban kerja untuk data terstruktur di gudang data.

Dengan menggunakan layanan yang tepat dengan konfigurasi yang benar, Anda dapat menyimpan data Anda dengan cara yang paling efisien dan efektif. Ini meminimalkan upaya yang terlibat dalam pengambilan data.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pengumpulan data

Pemeriksaan kualitas data