1. Manajemen data-sentris - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

1. Manajemen data-sentris

Manajemen data adalah praktik untuk memastikan bahwa data yang digunakan dalam pelatihan, pengujian, dan inferensi dikelola, diamankan, dan divalidasi dengan benar. Ketika membangun model dalam skala besar, data adalah komoditas utama yang memungkinkan kinerja model tinggi.

1.1 Repositori data

Sebuah repositori data membutuhkan kemampuan untuk melacak data dan melihat titik asalnya. Ketika data baru ditambahkan atau dihapus, repositori data mencatat perubahan dalam point-in-time pemulihan. Repositori data harus memperhitungkan bagaimana data label dilacak dan diproses, dan bagaimana artefak data perantara dilacak.

1.2 Integrasi sumber data yang beragam

Bergantung pada aplikasinya, melatih model Anda mungkin memerlukan data dari banyak sumber. Merancang dan memelihara manifes yang menginformasikan praktisi ML tentang sumber data yang tersedia dan bagaimana mereka mengikat bersama sangat penting untuk membangun model.

1.3 Validasi skema data

Untuk memberi makan data model, penting bahwa data pelatihan menjadi homogen. Transformasi atau analisis eksplorasi lainnya mungkin diperlukan untuk data yang disimpan dalam solusi data lake seperti Amazon Simple Storage Service (Amazon S3) atau di penyimpanan data dokumen.

1.4 Pembuatan versi data dan garis keturunan

Saat melatih model yang mungkin digunakan dalam produksi, Anda harus dapat mereproduksi hasil dan memiliki cara yang andal untuk melakukan studi ablasi untuk lebih memahami kinerja model secara keseluruhan. Melacak status data pelatihan sangat penting untuk reproduktifitas ini. Alat seperti Data Version Control (DVC) dapat membantu dalam hal ini.

1.5 Alur kerja pelabelan

Dalam kasus di mana data berlabel tidak tersedia di awal proyek, membuat data berlabel seringkali merupakan langkah yang diperlukan. Alat seperti Amazon SageMaker Ground Truth memerlukan data input agar terstruktur dengan tepat, dan memerlukan pekerjaan pelabelan yang ditentukan dan diuji. Tenaga kerja dari labeler internal atau eksternal harus digunakan. Data kemudian harus divalidasi, menggunakan pelabelan berlebihan atau pendekatan pembelajaran mesin untuk mengidentifikasi outlier atau kesalahan dalam kumpulan data pelatihan.

1.6 Penyimpanan fitur online dan offline

Sistem ML memiliki Feature Store atau penyimpanan terpusat untuk fitur dan metadata terkait sehingga memungkinkan untuk menggunakan kembali fitur, atau input model. Anda dapat membuat toko online atau offline. Gunakan toko online untuk kasus penggunaan inferensi real-time dengan latensi rendah. Gunakan toko offline untuk pelatihan dan inferensi batch.