Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Langkah 1. Lakukan EDA dan kembangkan model awal
Pada langkah ini, ilmuwan data melakukan analisis data eksplorasi (EDA) untuk memahami kasus penggunaan dan data ML. Mereka kemudian mengembangkan model ML (misalnya, model klasifikasi dan regresi) untuk memecahkan masalah dalam kasus penggunaan tertentu. Selama pengembangan model, ilmuwan data sering membuat asumsi tentang input dan output, seperti format data, siklus hidup data, dan lokasi output menengah. Asumsi ini harus didokumentasikan sehingga dapat digunakan untuk verifikasi selama pengujian unit pada langkah 2.
Meskipun langkah ini berfokus pada pengembangan model, ilmuwan data seringkali harus menulis kode pembantu dalam jumlah minimum untuk preprocessing, pelatihan, evaluasi, dan inferensi. Ilmuwan data harus dapat menjalankan kode ini di lingkungan pengembangan. Kami juga merekomendasikan untuk menyediakan argumen runtime opsional sehingga kode pembantu ini dapat dikonfigurasi secara dinamis untuk berjalan di lingkungan lain tanpa perubahan manual yang ekstensif. Ini akan mempercepat integrasi antara model dan pipa pada langkah 2 dan 3. Misalnya, kode untuk membaca data mentah harus dienkapsulasi dalam fungsi sehingga data dapat diproses sebelumnya secara konsisten.
Kami menyarankan Anda memulai dengan kerangka kerja seperti scikit-learn