Feature store - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Feature store

L'utilizzo di SageMaker Feature Store aumenta la produttività del team, poiché separa i limiti dei componenti (ad esempio, lo spazio di archiviazione rispetto all'utilizzo). Fornisce inoltre la riutilizzabilità delle funzionalità tra i diversi team di data science all'interno dell'organizzazione.

Usa le domande sui viaggi nel tempo

Le funzionalità di viaggio nel tempo di Feature Store aiutano a riprodurre modelli e supportano pratiche di governance più solide. Questo può essere utile quando un'organizzazione desidera valutare la derivazione dei dati, in modo simile a come gli strumenti di controllo delle versioni come Git valutano il codice. Le interrogazioni relative ai viaggi nel tempo aiutano inoltre le organizzazioni a fornire dati accurati per i controlli di conformità. Per ulteriori informazioni, consulta Comprendere le funzionalità chiave di Amazon SageMaker Feature Store sul blog AWS Machine Learning.

Usa IAM i ruoli

Feature Store aiuta anche a migliorare la sicurezza senza influire sulla produttività e l'innovazione del team. Puoi utilizzare i ruoli AWS Identity and Access Management (IAM) per concedere o limitare l'accesso granulare a funzionalità specifiche per utenti o gruppi specifici.

Ad esempio, la seguente politica limita l'accesso a una funzionalità sensibile in Feature Store.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Deny", "Action": "*", "Resource": "arn:aws:s3:::us-east-2-12345678910-features/12345678910/sagemaker/us-east-2/offline-store/doctor-appointments" } ] }

Per ulteriori informazioni sulla sicurezza e la crittografia dei dati tramite Feature Store, consulta Sicurezza e controllo degli accessi nella SageMaker documentazione.

Usa il test unitario

Quando i data scientist creano modelli basati su alcuni dati, spesso formulano ipotesi sulla distribuzione dei dati o eseguono un'analisi approfondita per comprendere appieno le proprietà dei dati. Quando questi modelli vengono implementati, alla fine diventano obsoleti. Quando il set di dati diventa obsoleto, i data scientist, gli ingegneri ML e (in alcuni casi) i sistemi automatizzati riqualificano il modello con nuovi dati recuperati da un negozio online o offline.

Tuttavia, la distribuzione di questi nuovi dati potrebbe essere cambiata, il che potrebbe influire sulle prestazioni dell'algoritmo corrente. Un modo automatizzato per verificare la presenza di questo tipo di problemi consiste nel prendere in prestito il concetto di test unitario dall'ingegneria del software. Le cose più comuni da verificare includono la percentuale di valori mancanti, la cardinalità delle variabili categoriali e se le colonne con valori reali aderiscono a una certa distribuzione prevista utilizzando un framework come la statistica dei test di ipotesi (t -test). Potresti anche voler convalidare lo schema dei dati, per assicurarti che non sia cambiato e che non generi silenziosamente funzionalità di input non valide.

Il test unitario richiede la comprensione dei dati e del relativo dominio in modo da poter pianificare le asserzioni esatte da eseguire nell'ambito del progetto ML. Per ulteriori informazioni, consulta Testare la qualità dei dati su larga scala con PyDeequ nel blog AWS Big Data.