Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Toko fitur
Menggunakan SageMaker Feature Store
Gunakan kueri perjalanan waktu
Kemampuan perjalanan waktu di Feature Store membantu mereproduksi pembuatan model dan mendukung praktik tata kelola yang lebih kuat. Ini dapat berguna ketika sebuah organisasi ingin menilai garis keturunan data, mirip dengan bagaimana alat kontrol versi seperti Git menilai kode. Pertanyaan perjalanan waktu juga membantu organisasi menyediakan data yang akurat untuk pemeriksaan kepatuhan. Untuk informasi selengkapnya, lihat Memahami kemampuan utama Amazon SageMaker Feature Store
Gunakan IAM peran
Feature Store juga membantu meningkatkan keamanan tanpa memengaruhi produktivitas dan inovasi tim. Anda dapat menggunakan AWS Identity and Access Management (IAM) peran untuk memberikan atau membatasi akses terperinci ke fitur tertentu untuk pengguna atau grup tertentu.
Misalnya, kebijakan berikut membatasi akses ke fitur sensitif di Feature Store.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Deny", "Action": "*", "Resource": "arn:aws:s3:::us-east-2-12345678910-features/12345678910/sagemaker/us-east-2/offline-store/doctor-appointments" } ] }
Untuk informasi selengkapnya tentang keamanan data dan enkripsi menggunakan Feature Store, lihat Keamanan dan kontrol akses dalam SageMaker dokumentasi.
Gunakan pengujian unit
Ketika ilmuwan data membuat model berdasarkan beberapa data, mereka sering membuat asumsi tentang distribusi data, atau mereka melakukan analisis menyeluruh untuk sepenuhnya memahami properti data. Ketika model-model ini digunakan, mereka akhirnya menjadi basi. Ketika dataset menjadi usang, ilmuwan data, insinyur ML, dan (dalam beberapa kasus) sistem otomatis melatih kembali model dengan data baru yang diambil dari toko online atau offline.
Namun, distribusi data baru ini mungkin telah berubah, yang dapat mempengaruhi kinerja algoritma saat ini. Cara otomatis untuk memeriksa jenis masalah ini adalah dengan meminjam konsep pengujian unit dari rekayasa perangkat lunak. Hal-hal umum yang harus diuji termasuk persentase nilai yang hilang, kardinalitas variabel kategoris, dan apakah kolom bernilai riil mematuhi beberapa distribusi yang diharapkan dengan menggunakan kerangka kerja seperti statistik uji hipotesis (t-test).
Pengujian unit memerlukan pemahaman data dan domainnya sehingga Anda dapat merencanakan pernyataan yang tepat untuk dilakukan sebagai bagian dari proyek ML. Untuk informasi selengkapnya, lihat Menguji kualitas data dalam skala besar dengan PyDeequ