Preparar los datos con Amazon EMR - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparar los datos con Amazon EMR

importante

Amazon SageMaker Studio y Amazon SageMaker Studio Classic son dos de los entornos de aprendizaje automático con los que puede interactuar SageMaker.

Si tu dominio se creó después del 30 de noviembre de 2023, Studio es tu experiencia predeterminada.

Si tu dominio se creó antes del 30 de noviembre de 2023, Amazon SageMaker Studio Classic es tu experiencia predeterminada. Para usar Studio si Amazon SageMaker Studio Classic es tu experiencia predeterminada, consultaMigración desde Amazon SageMaker Studio Classic.

Al migrar de Amazon SageMaker Studio Classic a Amazon SageMaker Studio, no se pierde la disponibilidad de las funciones. Studio Classic también existe como una aplicación en Amazon SageMaker Studio para ayudarle a ejecutar sus flujos de trabajo de aprendizaje automático tradicionales.

Amazon SageMaker Studio y Studio Classic incluyen la integración integrada de Amazon EMR, con la que los científicos e ingenieros de datos pueden preparar datos interactivos a escala de petabytes y realizar aprendizaje automático (ML) directamente desde su bloc de notas. Dentro de JupyterLab las libretas Studio Classic, pueden descubrir y conectarse a los clústeres de Amazon EMR existentes y, a continuación, explorar, visualizar y preparar datos a gran escala de forma interactiva para el aprendizaje automático mediante Apache Spark, Apache Hive o Presto. Con un solo clic, pueden acceder a la interfaz de usuario de Spark para supervisar el estado y las métricas de sus trabajos de Spark sin salir de su bloc de notas.

Los administradores pueden crear AWS CloudFormation plantillas que definan los clústeres de Amazon EMR. A continuación, pueden poner esas plantillas de clústeres a disposición de los usuarios de Studio y Studio Classic AWS Service Catalogpara que las lancen. A continuación, los científicos de datos pueden elegir una plantilla predefinida para aprovisionar automáticamente un clúster de Amazon EMR directamente desde su entorno de Studio. Los administradores pueden parametrizar aún más las plantillas para que los usuarios puedan elegir aspectos del clúster dentro de valores predefinidos. Por ejemplo, es posible que los usuarios deseen especificar el número de nodos principales o seleccionar el tipo de instancia de un nodo en un menú desplegable.

Con él AWS CloudFormation, los administradores pueden controlar la configuración organizativa, de seguridad y de red de los clústeres de Amazon EMR. Luego, los científicos e ingenieros de datos pueden personalizar esas plantillas para sus cargas de trabajo a fin de crear clústeres de Amazon EMR bajo demanda directamente desde Studio y Studio Classic sin tener que configurar configuraciones complejas. Los usuarios pueden cancelar los clústeres de Amazon EMR después de usarlos.