Preparación de datos con Amazon EMR - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de datos con Amazon EMR

importante

Amazon SageMaker Studio y Amazon SageMaker Studio Classic son dos de los entornos de aprendizaje automático que puede utilizar para interactuar con la SageMaker IA.

Si su dominio se creó después del 30 de noviembre de 2023, Studio es su experiencia predeterminada.

Si tu dominio se creó antes del 30 de noviembre de 2023, Amazon SageMaker Studio Classic es tu experiencia predeterminada. Para usar Studio si Amazon SageMaker Studio Classic es tu experiencia predeterminada, consultaMigración desde Amazon SageMaker Studio Classic.

Al migrar de Amazon SageMaker Studio Classic a Amazon SageMaker Studio, no se pierde la disponibilidad de las funciones. Studio Classic también existe como una aplicación en Amazon SageMaker Studio para ayudarle a ejecutar sus flujos de trabajo de aprendizaje automático tradicionales.

Amazon SageMaker Studio y Studio Classic vienen con una integración integrada con Amazon EMR. Dentro JupyterLab de las libretas Studio Classic, los científicos e ingenieros de datos pueden descubrir y conectarse a los clústeres Amazon EMR existentes y, a continuación, explorar, visualizar y preparar datos a gran escala de forma interactiva para el aprendizaje automático mediante Apache Spark, Apache Hive o Presto. Con un solo clic, pueden acceder a la IU de Spark para supervisar el estado y las métricas de sus trabajos de Spark sin moverse de su cuaderno.

Los administradores pueden crear plantillas de AWS CloudFormation que definan los clústeres de Amazon EMR. A continuación, pueden hacer que esas plantillas de clústeres estén disponibles en AWS Service Catalog para que los usuarios de Studio y Studio Classic puedan inicializarlas. A continuación, los científicos de datos pueden elegir una plantilla predefinida para autoaprovisionar un clúster de Amazon EMR directamente desde su entorno de Studio. Los administradores pueden parametrizar aún más las plantillas para que los usuarios puedan elegir aspectos del clúster dentro de unos valores predefinidos. Por ejemplo, es posible que los usuarios deseen especificar el número de nodos principales o seleccionar el tipo de instancia de un nodo en un menú desplegable.

Con él AWS CloudFormation, los administradores pueden controlar la configuración organizativa, de seguridad y de red de los clústeres de Amazon EMR. Luego, los científicos e ingenieros de datos pueden personalizar esas plantillas para sus cargas de trabajo con el fin de crear clústeres de Amazon EMR bajo demanda directamente desde Studio y Studio Classic sin tener que realizar configuraciones complejas. Los usuarios pueden terminar los clústeres de Amazon EMR después de utilizarlos.