Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Amazon SageMaker Studio et son ancienne version, Studio Classic, fournissent aux scientifiques des données et aux ingénieurs en apprentissage automatique (ML) des outils permettant d'analyser et de préparer des données à grande échelle. L'analyse, la transformation et la préparation de grandes quantités de données sont des étapes fondamentales de tout flux de travail de science des données et de ML. Studio et Studio Classic sont tous deux intégrés à Amazon EMR, ce qui permet aux utilisateurs de gérer des flux de travail interactifs de préparation des données et d'apprentissage automatique à grande échelle au sein de leurs JupyterLab ordinateurs portables.
Amazon EMR est une plateforme de mégadonnées gérée dotée de ressources pour vous aider à exécuter des tâches de traitement de données distribué à l'échelle de plusieurs pétaoctets à l'aide de frameworks d'analyse open source AWS tels qu'Apache Spark, Apache
Vous devriez envisager les clusters Amazon EMR pour vos charges de travail de préparation des données si vous avez des exigences de traitement de données complexes, de longue durée ou à grande échelle impliquant d'énormes quantités de données, si vous avez besoin d'une personnalisation et d'une intégration étendues avec d'autres services, si vous devez exécuter des applications personnalisées ou si vous envisagez d'exécuter un large éventail de frameworks de traitement de données distribués au-delà d'Apache Spark.
À l'aide d'une image de SageMaker distribution 1.10
ou d'une version supérieure, vous pouvez également vous connecter à des applications EMR sans serveur interactives directement depuis vos JupyterLab ordinateurs portables dans AI Studio. SageMaker L'intégration de Studio à EMR Serverless vous permet d'exécuter des frameworks d'analyse de mégadonnées open source tels qu'Apache Spark et Apache
Vous devriez envisager EMR Serverless pour vos charges de travail interactives de préparation des données si vos charges de travail sont de courte durée ou intermittentes et ne nécessitent pas de cluster persistant ; si vous préférez une expérience sans serveur avec provisionnement et arrêt automatiques des ressources, évitant ainsi les frais de gestion de l'infrastructure ; ou si vos tâches de préparation de données interactives tournent principalement autour d'Apache Spark.