Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Préparation des données à grande échelle à l'aide d'applications Amazon EMR sans serveur ou de clusters Amazon EMR dans Studio

Mode de mise au point
Préparation des données à grande échelle à l'aide d'applications Amazon EMR sans serveur ou de clusters Amazon EMR dans Studio - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon SageMaker Studio et son ancienne version, Studio Classic, fournissent aux scientifiques des données et aux ingénieurs en apprentissage automatique (ML) des outils permettant d'analyser et de préparer des données à grande échelle. L'analyse, la transformation et la préparation de grandes quantités de données sont des étapes fondamentales de tout flux de travail de science des données et de ML. Studio et Studio Classic sont tous deux intégrés à Amazon EMR, ce qui permet aux utilisateurs de gérer des flux de travail interactifs de préparation des données et d'apprentissage automatique à grande échelle au sein de leurs JupyterLab ordinateurs portables.

Amazon EMR est une plateforme de mégadonnées gérée dotée de ressources pour vous aider à exécuter des tâches de traitement de données distribué à l'échelle de plusieurs pétaoctets à l'aide de frameworks d'analyse open source AWS tels qu'Apache Spark, Apache Hive, Presto et Flink, entre autres. HBase Grâce à l'intégration de Studio et Studio Classic à Amazon EMR, vous pouvez créer, parcourir, découvrir et vous connecter à des clusters Amazon EMR sans quitter votre bloc-notes JupyterLab ou celui de Studio Classic. Vous pouvez également surveiller et déboguer vos charges de travail Spark en accédant à l'interface utilisateur de Spark directement depuis votre bloc-notes en un seul clic.

Vous devriez envisager les clusters Amazon EMR pour vos charges de travail de préparation des données si vous avez des exigences de traitement de données complexes, de longue durée ou à grande échelle impliquant d'énormes quantités de données, si vous avez besoin d'une personnalisation et d'une intégration étendues avec d'autres services, si vous devez exécuter des applications personnalisées ou si vous envisagez d'exécuter un large éventail de frameworks de traitement de données distribués au-delà d'Apache Spark.

À l'aide d'une image de SageMaker distribution 1.10 ou d'une version supérieure, vous pouvez également vous connecter à des applications EMR sans serveur interactives directement depuis vos JupyterLab ordinateurs portables dans AI Studio. SageMaker L'intégration de Studio à EMR Serverless vous permet d'exécuter des frameworks d'analyse de mégadonnées open source tels qu'Apache Spark et Apache Hive sans configurer, gérer ou dimensionner les clusters Amazon EMR. EMR Serverless provisionne et gère automatiquement les ressources de calcul et de mémoire sous-jacentes en fonction des besoins de votre application EMR Serverless. Il augmente ou diminue les ressources de manière dynamique, en vous facturant ou en fonction de la quantité de vCPU, de mémoire et de ressources de stockage consommées par vos applications. Cette approche sans serveur vous permet d'exécuter des charges de travail interactives de préparation des données à partir de vos JupyterLab ordinateurs portables sans vous soucier de la gestion du cluster, tout en optimisant le taux d'utilisation des instances et en optimisant les coûts.

Vous devriez envisager EMR Serverless pour vos charges de travail interactives de préparation des données si vos charges de travail sont de courte durée ou intermittentes et ne nécessitent pas de cluster persistant ; si vous préférez une expérience sans serveur avec provisionnement et arrêt automatiques des ressources, évitant ainsi les frais de gestion de l'infrastructure ; ou si vos tâches de préparation de données interactives tournent principalement autour d'Apache Spark.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.