Mengapa Anda Harus Menggunakan MLOP? - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengapa Anda Harus Menggunakan MLOP?

Saat Anda beralih dari menjalankan proyek kecerdasan buatan dan pembelajaran mesin (AI/ML) individu ke menggunakan AI/ML untuk mengubah bisnis Anda dalam skala besar, disiplin Operasi ML/MLOP dapat membantu. MLOP menjelaskan aspek unik proyek AI/ML dalam manajemen proyek, CI/CD, dan jaminan kualitas, membantu Anda meningkatkan waktu pengiriman, mengurangi cacat, dan membuat ilmu data lebih produktif. MLOPs mengacu pada metodologi yang dibangun di atas penerapan DevOps praktik untuk beban kerja pembelajaran mesin. Untuk diskusi tentang DevOps prinsip, lihat white paper Pengantar DevOps tentang AWS. Untuk mempelajari lebih lanjut tentang implementasi menggunakan AWS layanan, lihat Mempraktikkan CI/CD AWS dan Infrastruktur sebagai Kode.

Seperti DevOps, MLOP bergantung pada pendekatan kolaboratif dan efisien untuk siklus hidup pengembangan pembelajaran mesin di mana persimpangan orang, proses, dan teknologi mengoptimalkan end-to-end aktivitas yang diperlukan untuk mengembangkan, membangun, dan mengoperasikan beban kerja pembelajaran mesin.

MLOPs berfokus pada persimpangan ilmu data dan rekayasa data dalam kombinasi dengan DevOps praktik yang ada untuk merampingkan pengiriman model di seluruh siklus hidup pengembangan pembelajaran mesin. MLOPs adalah disiplin mengintegrasikan beban kerja ML ke dalam manajemen rilis, CI/CD, dan operasi. MLOP membutuhkan integrasi pengembangan perangkat lunak, operasi, rekayasa data, dan ilmu data.

Tantangan dengan MLOP

Meskipun MLOP dapat menyediakan alat yang berharga untuk membantu Anda meningkatkan skala bisnis Anda, Anda mungkin menghadapi masalah tertentu saat Anda mengintegrasikan MLOP ke dalam beban kerja pembelajaran mesin Anda.

Manajemen proyek

  • Proyek ML melibatkan ilmuwan data, peran yang relatif baru, dan yang tidak sering diintegrasikan ke dalam tim lintas fungsi. Anggota tim baru ini sering berbicara bahasa teknis yang sangat berbeda dari pemilik produk dan insinyur perangkat lunak, menambah masalah yang biasa dalam menerjemahkan persyaratan bisnis ke dalam persyaratan teknis.

Komunikasi dan kolaborasi

  • Membangun visibilitas pada proyek ML dan memungkinkan kolaborasi di berbagai pemangku kepentingan seperti insinyur data, ilmuwan data, insinyur ML, dan DevOps menjadi semakin penting untuk memastikan hasil yang sukses.

Semuanya adalah kode

  • Penggunaan data produksi dalam kegiatan pengembangan, siklus hidup eksperimen yang lebih lama, ketergantungan pada jaringan data, pelatihan ulang jalur penyebaran, dan metrik unik dalam mengevaluasi kinerja model.

  • Model sering memiliki siklus hidup independen dari aplikasi dan sistem yang terintegrasi dengan model tersebut.

  • Seluruh end-to-end sistem dapat direproduksi melalui kode dan artefak berversi. DevOps proyek menggunakan Infrastructure-as-Code (IAc) dan Configuration-as-Code (CAC) untuk membangun lingkungan, dan Pipelines-as-Code (PAC) untuk memastikan pola CI/CD yang konsisten. Pipeline harus terintegrasi dengan alur kerja pelatihan Big Data dan ML. Itu sering berarti bahwa pipa adalah kombinasi dari alat CI/CD tradisional dan mesin alur kerja lainnya. Ada masalah kebijakan penting untuk banyak proyek ML, sehingga pipeline mungkin juga perlu menegakkan kebijakan tersebut. Data input yang bias menghasilkan hasil yang bias, kekhawatiran yang meningkat bagi para pemangku kepentingan bisnis.

CI/CD

  • Dalam MLOPs, data sumber adalah input kelas satu, bersama dengan kode sumber. Itu sebabnya MLOPs meminta pembuatan versi data sumber dan memulai pipeline berjalan saat data sumber atau inferensi berubah.

  • Pipelines juga harus versi model ML, bersama dengan input dan output lainnya, untuk menyediakan keterlacakan.

  • Pengujian otomatis harus mencakup validasi yang tepat dari model ML selama fase pembuatan dan ketika model dalam produksi.

  • Fase membangun dapat mencakup pelatihan model dan pelatihan ulang, proses yang memakan waktu dan intensif sumber daya. Pipa harus cukup granular untuk hanya melakukan siklus pelatihan penuh ketika data sumber atau kode ML berubah, bukan ketika komponen terkait berubah.

  • Karena kode pembelajaran mesin biasanya merupakan bagian kecil dari solusi keseluruhan, pipeline penerapan juga dapat menggabungkan langkah-langkah tambahan yang diperlukan untuk mengemas model untuk konsumsi sebagai API oleh aplikasi dan sistem lain.

Pencatatan dan pemantauan

  • Fase rekayasa fitur dan pelatihan model yang diperlukan untuk menangkap metrik pelatihan model serta eksperimen model. Menyetel model ML membutuhkan manipulasi bentuk data input serta hiperparameter algoritma, dan secara sistematis menangkap eksperimen tersebut. Pelacakan eksperimen membantu ilmuwan data bekerja lebih efektif dan memberikan gambaran yang dapat direproduksi dari pekerjaan mereka.

  • Model ML yang diterapkan memerlukan pemantauan data yang diteruskan ke model untuk inferensi, bersama dengan stabilitas titik akhir standar dan metrik kinerja. Sistem pemantauan juga harus menangkap kualitas output model, sebagaimana dievaluasi oleh metrik ML yang sesuai.

Manfaat MLOP

Mengadopsi praktik MLOP memberi Anda lebih cepat time-to-market untuk proyek ML dengan memberikan manfaat berikut.

  • Produktivitas: Menyediakan lingkungan swalayan dengan akses ke kumpulan data yang dikuratori memungkinkan insinyur data dan ilmuwan data bergerak lebih cepat dan membuang lebih sedikit waktu dengan data yang hilang atau tidak valid.

  • Pengulangan: Mengotomatiskan semua langkah dalam MDC membantu Anda memastikan proses yang dapat diulang, termasuk bagaimana model dilatih, dievaluasi, diversi, dan digunakan.

  • Keandalan: Menggabungkan praktik CI/CD memungkinkan kemampuan untuk tidak hanya menyebarkan dengan cepat tetapi dengan peningkatan kualitas dan konsistensi.

  • Auditabilitas: Membuat versi semua input dan output, dari eksperimen ilmu data hingga sumber data hingga model terlatih, berarti bahwa kami dapat menunjukkan dengan tepat bagaimana model dibangun dan di mana model itu digunakan.

  • Kualitas data dan model: MLOPs memungkinkan kami menegakkan kebijakan yang menjaga terhadap bias model dan melacak perubahan pada properti statistik data dan kualitas model dari waktu ke waktu.