1. Manajemen data-sentris - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

1. Manajemen data-sentris

Manajemen data adalah praktik untuk memastikan bahwa data yang digunakan dalam pelatihan, pengujian, dan inferensi dikelola, diamankan, dan divalidasi dengan benar. Saat membangun model dalam skala besar, data adalah komoditas utama yang memungkinkan kinerja model tinggi.

1.1 Repositori data

Repositori data membutuhkan kemampuan untuk melacak data dan melihat titik asalnya. Ketika data baru ditambahkan atau dihapus, repositori data mencatat perubahan tersebutpoint-in-timepemulihan. Repositori data harus mempertimbangkan bagaimana data label dilacak dan diproses, dan bagaimana artefak data perantara dilacak.

1.2 Integrasi sumber data yang beragam

Bergantung pada aplikasinya, melatih model Anda mungkin memerlukan data dari banyak sumber. Merancang dan memelihara manifes yang menginformasikan praktisi ML tentang sumber data yang tersedia dan bagaimana mereka mengikat bersama sangat penting untuk membangun model.

1.3 Validasi skema data

Untuk memberi makan data model, penting bahwa data pelatihan menjadi homogen. Transformasi atau analisis eksplorasi lainnya mungkin diperlukan untuk data yang disimpan dalam solusi data lake seperti Amazon Simple Storage Service (Amazon S3) atau di penyimpanan data dokumen.

1.4 Versi data dan garis keturunan

Ketika model pelatihan yang mungkin digunakan dalam produksi, Anda harus dapat mereproduksi hasil dan memiliki cara yang dapat diandalkan untuk melakukanstudi ablasiuntuk lebih memahami kinerja model secara keseluruhan. Melacak keadaan data pelatihan sangat penting untuk reproduktifitas ini. Alat-alat sepertiKontrol Versi Data (DVC)dapat membantu dengan ini.

1.5 Alur kerja pelabelan

Dalam kasus di mana data berlabel tidak tersedia di awal proyek, membuat data berlabel sering merupakan langkah yang diperlukan. Alat seperti AmazonSageMakerKebenaran Dasar membutuhkan data input untuk disusun dengan tepat, dan mereka memerlukan pekerjaan pelabelan yang ditentukan dan diuji. Tenaga kerja dari pelabel internal atau eksternal harus digunakan. Data kemudian harus divalidasi, menggunakan pelabelan berlebihan atau pendekatan pembelajaran mesin untuk mengidentifikasi outlier atau kesalahan dalam kumpulan data pelatihan.

1.6 Penyimpanan fitur online dan offline

Sistem ML memilikiToko Fituratau toko terpusat untuk fitur dan metadata terkait sehingga memungkinkan untuk menggunakan kembali fitur, atau input model. Anda dapat membuat toko online atau offline. Gunakan toko online untuk kasus penggunaan inferensi waktu nyata dengan latensi rendah. Gunakan toko offline untuk pelatihan dan kesimpulan batch.