Langkah 1. Lakukan EDA dan kembangkan model awal - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Langkah 1. Lakukan EDA dan kembangkan model awal

Pada langkah ini, ilmuwan data melakukan analisis data eksplorasi (EDA) untuk memahami kasus penggunaan dan data ML. Mereka kemudian mengembangkan model ML (misalnya, model klasifikasi dan regresi) untuk memecahkan masalah dalam kasus penggunaan tertentu. Selama pengembangan model, ilmuwan data sering membuat asumsi tentang input dan output, seperti format data, siklus hidup data, dan lokasi output menengah. Asumsi ini harus didokumentasikan sehingga dapat digunakan untuk verifikasi selama pengujian unit pada langkah 2.

Meskipun langkah ini berfokus pada pengembangan model, ilmuwan data seringkali harus menulis kode pembantu dalam jumlah minimum untuk preprocessing, pelatihan, evaluasi, dan inferensi. Ilmuwan data harus dapat menjalankan kode ini di lingkungan pengembangan. Kami juga merekomendasikan untuk menyediakan argumen runtime opsional sehingga kode pembantu ini dapat dikonfigurasi secara dinamis untuk berjalan di lingkungan lain tanpa perubahan manual yang ekstensif. Ini akan mempercepat integrasi antara model dan pipa pada langkah 2 dan 3. Misalnya, kode untuk membaca data mentah harus dienkapsulasi dalam fungsi sehingga data dapat diproses sebelumnya secara konsisten.

Kami menyarankan Anda memulai dengan kerangka kerja seperti scikit-learn,,, Keras XGBoostPyTorch, atau TensorFlowuntuk mengembangkan model ML dan kode penolongnya. Misalnya, scikit-learn adalah pustaka HTML gratis yang ditulis dengan Python. Ini menyediakan konvensi API yang seragam untuk objek, dan mencakup empat objek utama - estimator, prediktor, transformator, dan model - yang mencakup transformasi data ringan, mendukung label dan rekayasa fitur, dan merangkum langkah-langkah pra-pemrosesan dan pemodelan. Objek-objek ini membantu menghindari proliferasi kode boilerplate dan mencegah validasi dan data pengujian bocor ke dalam kumpulan data pelatihan. Demikian pula, setiap framework ML memiliki implementasi sendiri dari artefak kunci ML, dan kami menyarankan Anda untuk mematuhi konvensi API dari framework yang Anda pilih ketika Anda mengembangkan model ML.