Toko fitur - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Toko fitur

Menggunakan SageMaker Feature Store meningkatkan produktivitas tim, karena memisahkan batas komponen (misalnya, penyimpanan versus penggunaan). Ini juga menyediakan fitur yang dapat digunakan kembali di berbagai tim ilmu data dalam organisasi Anda.

Gunakan kueri perjalanan waktu

Kemampuan perjalanan waktu di Feature Store membantu mereproduksi pembuatan model dan mendukung praktik tata kelola yang lebih kuat. Ini dapat berguna ketika sebuah organisasi ingin menilai garis keturunan data, mirip dengan bagaimana alat kontrol versi seperti Git menilai kode. Pertanyaan perjalanan waktu juga membantu organisasi menyediakan data yang akurat untuk pemeriksaan kepatuhan. Untuk informasi selengkapnya, lihat Memahami kemampuan utama Amazon SageMaker Feature Store di blog AWS Machine Learning.

Gunakan IAM peran

Feature Store juga membantu meningkatkan keamanan tanpa memengaruhi produktivitas dan inovasi tim. Anda dapat menggunakan AWS Identity and Access Management (IAM) peran untuk memberikan atau membatasi akses terperinci ke fitur tertentu untuk pengguna atau grup tertentu.

Misalnya, kebijakan berikut membatasi akses ke fitur sensitif di Feature Store.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Deny", "Action": "*", "Resource": "arn:aws:s3:::us-east-2-12345678910-features/12345678910/sagemaker/us-east-2/offline-store/doctor-appointments" } ] }

Untuk informasi selengkapnya tentang keamanan data dan enkripsi menggunakan Feature Store, lihat Keamanan dan kontrol akses dalam SageMaker dokumentasi.

Gunakan pengujian unit

Ketika ilmuwan data membuat model berdasarkan beberapa data, mereka sering membuat asumsi tentang distribusi data, atau mereka melakukan analisis menyeluruh untuk sepenuhnya memahami properti data. Ketika model-model ini digunakan, mereka akhirnya menjadi basi. Ketika dataset menjadi usang, ilmuwan data, insinyur ML, dan (dalam beberapa kasus) sistem otomatis melatih kembali model dengan data baru yang diambil dari toko online atau offline.

Namun, distribusi data baru ini mungkin telah berubah, yang dapat mempengaruhi kinerja algoritma saat ini. Cara otomatis untuk memeriksa jenis masalah ini adalah dengan meminjam konsep pengujian unit dari rekayasa perangkat lunak. Hal-hal umum yang harus diuji termasuk persentase nilai yang hilang, kardinalitas variabel kategoris, dan apakah kolom bernilai riil mematuhi beberapa distribusi yang diharapkan dengan menggunakan kerangka kerja seperti statistik uji hipotesis (t-test). Anda mungkin juga ingin memvalidasi skema data, untuk memastikannya tidak berubah dan tidak akan menghasilkan fitur input yang tidak valid secara diam-diam.

Pengujian unit memerlukan pemahaman data dan domainnya sehingga Anda dapat merencanakan pernyataan yang tepat untuk dilakukan sebagai bagian dari proyek ML. Untuk informasi selengkapnya, lihat Menguji kualitas data dalam skala besar dengan PyDeequ di blog AWS Big Data.