Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
1. Gestion centrée sur les données
La gestion des données consiste à s'assurer que les données utilisées pour la formation, les tests et les inférences sont correctement gérées, sécurisées et validées. Lors de la création de modèles à grande échelle, les données sont le principal élément qui permet des performances élevées des modèles.
1.1 Référentiel de données |
Un référentiel de données doit être capable de suivre les données et de déterminer leur origine. Lorsque de nouvelles données sont ajoutées ou supprimées, le référentiel de données enregistre ces modifications lors de la point-in-time restauration. Le référentiel de données doit tenir compte de la manière dont les données d'étiquette sont suivies et traitées, ainsi que de la manière dont les artefacts de données intermédiaires sont suivis. |
1.2 Intégration de diverses sources de données |
Selon l'application, l'entraînement de votre modèle peut nécessiter des données provenant de nombreuses sources. Pour créer des modèles, il est essentiel de concevoir et de tenir à jour un manifeste qui informe les praticiens du ML des sources de données disponibles et de la manière dont elles sont liées entre elles. |
1.3 Validation du schéma de données |
Pour alimenter les données des modèles, il est important que les données d'entraînement soient homogènes. Des transformations ou d'autres analyses exploratoires peuvent être nécessaires pour les données stockées dans des solutions de data lake telles qu'Amazon Simple Storage Service (Amazon S3) ou dans des magasins de données documentaires. |
1.4 Versionnage et lignage des données |
Lorsque vous entraînez des modèles susceptibles d'être utilisés en production, vous devez être en mesure de reproduire les résultats et de disposer d'un moyen fiable de réaliser des études d'ablation |
1.5 Flux de travail d'étiquetage |
Dans les cas où les données étiquetées ne sont pas disponibles au début du projet, la création de données étiquetées est souvent une étape nécessaire. Les outils tels qu'Amazon SageMaker Ground Truth nécessitent que les données d'entrée soient structurées de manière appropriée et nécessitent une tâche d'étiquetage définie et testée. Une main-d'œuvre composée d'étiqueteurs internes ou externes doit être utilisée. Les données doivent ensuite être validées, à l'aide d'un étiquetage redondant ou d'approches d'apprentissage automatique pour identifier les valeurs aberrantes ou les erreurs dans l'ensemble de données de formation. |
1.6 Stockage de fonctionnalités en ligne et hors ligne |
Le système ML dispose d'un magasin de fonctionnalités ou d'un magasin centralisé pour les fonctionnalités et les métadonnées associées afin qu'il soit possible de réutiliser les fonctionnalités ou les entrées de modèles. Vous pouvez créer une boutique en ligne ou hors ligne. Utilisez une boutique en ligne pour les cas d'utilisation d'inférence en temps réel à faible latence. Utilisez un magasin hors ligne pour la formation et l'inférence par lots. |