Tipos de instancia para algoritmos integrados - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Tipos de instancia para algoritmos integrados

La mayoría de los algoritmos de Amazon SageMaker AI se han diseñado para aprovechar la computación con GPU para el entrenamiento. A pesar de que los costes por instancia son más altos, GPUs entrene más rápido, lo que los hace más rentables. Las excepciones se mencionan en esta guía.

Para obtener más información sobre las EC2 instancias compatibles, consulta los detalles de las instancias.

El tamaño y el tipo de datos pueden tener un efecto notable en la configuración de hardware que es más efectiva. Cuando se realiza el entrenamiento del mismo modelo de forma periódica, la prueba inicial en un espectro de tipos de instancias puede detectar configuraciones que son más rentables a largo plazo. Además, es GPUs posible que los algoritmos que se entrenan de manera más eficiente no requieran una GPUs inferencia eficiente. Prueba a determinar la solución más rentable. Para obtener una recomendación automática de instancias o realizar pruebas de carga personalizadas, usa Amazon SageMaker Inference Recommender.

Para obtener más información sobre las especificaciones de hardware de SageMaker IA, consulte Tipos de instancias de Amazon SageMaker AI ML.

UltraServers

UltraServers conecte varias EC2 instancias de Amazon mediante una interconexión aceleradora de baja latencia y gran ancho de banda. Están diseñados para gestionar AI/ML cargas de trabajo a gran escala que requieren una potencia de procesamiento significativa. Para obtener más información, consulta Amazon EC2 UltraServers. Para empezar UltraServers, consulta Reserva planes de formación para tus HyperPod grupos o trabajos de formación.

Para empezar a usar UltraServers Amazon SageMaker AI, crea un plan de formación. Cuando UltraServer esté disponible en el plan de formación, cree un trabajo de formación con la AWS Management Console API Amazon SageMaker AI o AWS CLI. Recuerde especificar el tipo de UltraServer instancia que compró en el plan de formación.

An UltraServer puede ejecutar uno o varios trabajos a la vez. UltraServers agrupa las instancias, lo que le proporciona cierta flexibilidad a la hora de asignar la UltraServer capacidad en su organización. Al configurar sus tareas, recuerde también las directrices de seguridad de datos de su organización, ya que las instancias de una instancia UltraServer pueden acceder a los datos de otra tarea en otra instancia de la misma instancia UltraServer.

Si se produce algún fallo en el hardware UltraServer, la SageMaker IA intentará resolver el problema automáticamente. A medida que la SageMaker IA investigue y resuelva el problema, es posible que recibas notificaciones y acciones a través de AWS Health Eventos o AWS Support.

Una vez finalizado tu trabajo de formación, la SageMaker IA detiene las instancias, pero seguirán estando disponibles en tu plan de formación si el plan sigue activo. Para mantener una instancia en UltraServer funcionamiento una vez finalizado un trabajo, puedes usar piscinas calientes gestionadas.

Si tu plan de entrenamiento tiene suficiente capacidad, puedes incluso ejecutar varios trabajos de entrenamiento UltraServers. De forma predeterminada, cada una UltraServer viene con 18 instancias, compuestas por 17 instancias y 1 instancia de repuesto. Si necesita más instancias, debe comprar más UltraServers. Al crear un trabajo de formación, puede configurar cómo se distribuyen los trabajos UltraServers mediante el InstancePlacementConfig parámetro.

Si no configuras la colocación laboral, la SageMaker IA asigna automáticamente las tareas a las instancias de tu empresa. UltraServer Esta estrategia predeterminada se basa en el mejor esfuerzo, que prioriza llenar todas las instancias en una sola UltraServer antes de usar una diferente. UltraServer Por ejemplo, si solicitas 14 instancias y tienes 2 UltraServers en tu plan de formación, la SageMaker IA utilizará todas las instancias de la primera. UltraServer Si ha solicitado 20 instancias y tiene 2 UltraServers en su plan de formación, la SageMaker IA utilizará las 17 instancias en la primera UltraServer y, a continuación, utilizará las 3 de la segunda UltraServer. Las instancias internas se UltraServer utilizan NVLink para comunicarse, pero las individuales UltraServers utilizan el Elastic Fabric Adapter (EFA), lo que podría afectar al rendimiento del entrenamiento del modelo.