Talleres prácticas recomendadas Arquitecturas de referencia Tutoriales

Recursos para empezar a utilizar la IA/ML en Amazon EKS

Para comenzar a utilizar el machine learning en EKS, elija uno de estos patrones prescriptivos para preparar rápidamente un clúster de EKS y el software y hardware de ML para comenzar a ejecutar cargas de trabajo de ML.

Talleres

Taller sobre IA generativa en Amazon EKS

Descubra cómo empezar a utilizar las aplicaciones de modelos de lenguaje de gran tamaño (LLM) y la inferencia en Amazon EKS. Descubra cómo implementar y administrar cargas de trabajo de LLM aptas para producción. Mediante talleres prácticos, explorará cómo aprovechar Amazon EKS junto con los servicios de AWS y las herramientas de código abierto para crear soluciones de LLM sólidas. El entorno del taller proporciona toda la infraestructura y las herramientas necesarias, lo que le permite centrarse en el aprendizaje y la implementación.

IA generativa en Amazon EKS con Neuron

Descubra cómo empezar a utilizar las aplicaciones de modelos de lenguaje de gran tamaño (LLM) y la inferencia en Amazon EKS. Descubra cómo implementar y administrar cargas de trabajo de LLM aptas para producción, cómo implementar patrones RAG avanzados con bases de datos vectoriales y cómo crear aplicaciones de LLM respaldadas por datos utilizando marcos de código abierto. Mediante talleres prácticos, explorará cómo aprovechar Amazon EKS junto con los servicios de AWS y las herramientas de código abierto para crear soluciones de LLM sólidas. El entorno del taller proporciona toda la infraestructura y las herramientas necesarias, lo que le permite centrarse en el aprendizaje y la implementación.

prácticas recomendadas

Los temas centrados en la IA/ML de la guía de prácticas recomendadas de Amazon EKS proporcionan recomendaciones detalladas en las siguientes áreas para optimizar las cargas de trabajo de IA/ML en Amazon EKS.

Cálculo y escalado automático de IA/ML

En esta sección, se describen las prácticas recomendadas para optimizar el cálculo y el escalado automático de IA/ML en Amazon EKS, centrándose en la administración de los recursos de la GPU, la resiliencia de los nodos y el escalado de las aplicaciones. Proporciona estrategias como la programación de las cargas de trabajo con etiquetas conocidas y la afinidad entre nodos, el uso de bloques de capacidad de ML o reservas de capacidad bajo demanda, y la implementación de comprobaciones de estado de los nodos con herramientas como EKS Node Monitoring Agent.

Redes de IA/ML

En esta sección, se describen las prácticas recomendadas para optimizar las redes de IA/ML en Amazon EKS a fin de mejorar el rendimiento y la escalabilidad, incluidas estrategias como seleccionar instancias con un mayor ancho de banda de la red o Elastic Fabric Adapter (EFA) para el entrenamiento distribuido, instalar herramientas como MPI y NCCL, y habilitar la delegación de prefijos para aumentar las direcciones IP y mejorar los tiempos de lanzamiento de los pods.

Seguridad de IA/ML

Esta sección se centra en proteger el almacenamiento de datos y garantizar la conformidad de las cargas de trabajo de IA/ML en Amazon EKS, incluidas prácticas como el uso de Amazon S3 con AWS Key Management Service (KMS) para el cifrado del servidor (SSE-KMS), la configuración de buckets con claves KMS regionales y claves de bucket de S3 para reducir los costos, la concesión de permisos de IAM para acciones de KMS (como el descifrado de pods de EKS) y la auditoría con registros de AWS CloudTrail.

Almacenamiento de IA/ML

En esta sección, se describen las prácticas recomendadas para optimizar el almacenamiento en las cargas de trabajo de IA/ML en Amazon EKS, incluidas prácticas como implementar modelos con controladores de CSI para montar servicios como S3, FSx for Lustre o EFS como volúmenes persistentes, seleccionar el almacenamiento en función de las necesidades de carga de trabajo (p. ej., FSx for Lustre para entrenamiento distribuido con opciones como Scratch-SSD o Persistent-SSD) y habilitar características como la compresión de datos y la división en bandas.

Observabilidad de IA/ML

Esta sección se centra en la supervisión y la optimización del uso de la GPU para las cargas de trabajo de IA/ML en Amazon EKS a fin de mejorar la eficiencia y reducir los costos, e incluye estrategias como centrarse en un uso elevado de la GPU con herramientas como CloudWatch Container Insights y el exportador de DCGM de NVIDIA integrado con Prometheus y Grafana, y métricas que le recomendamos que analice para sus cargas de trabajo de IA/ML.

Rendimiento de IA/ML

Esta sección se centra en mejorar el escalado y el rendimiento de las aplicaciones para las cargas de trabajo de IA/ML en Amazon EKS mediante la administración de imágenes de contenedores y la optimización del inicio, incluidas prácticas como el uso de imágenes base pequeñas y ligeras o AWS Deep Learning Containers con compilaciones de varias etapas, la precarga de imágenes mediante instantáneas de EBS o la extracción previa a la memoria caché de tiempo de ejecución mediante DaemonSets o implementaciones.

Arquitecturas de referencia

Explore estos repositorios de GitHub para obtener arquitecturas de referencia, código de muestra y utilidades para implementar el entrenamiento distribuido y la inferencia para cargas de trabajo de IA/ML en Amazon EKS y otros servicios de AWS.

AWSome Distributed Training

Este repositorio ofrece una colección de prácticas recomendadas, arquitecturas de referencia, ejemplos de entrenamiento del modelo y utilidades para entrenar modelos de gran tamaño en AWS. Es compatible con el entrenamiento distribuido con Amazon EKS, que incluye plantillas de CloudFormation para clústeres de EKS, compilaciones personalizadas de AMI y contenedores, casos de prueba para marcos como PyTorch (DDP/FSDP, MegatronLM, NeMo) y JAX, y herramientas para la validación, la observabilidad y el monitoreo del rendimiento, como exportadores Prometheus de EFA y sistemas Nvidia Nsight.

AWSome Inference

Este repositorio proporciona arquitecturas de referencia y casos de prueba para optimizar las soluciones de inferencia en AWS, centrándose en Amazon EKS y en las instancias de EC2 aceleradas. Incluye configuraciones de infraestructura para clústeres de VPC y EKS, proyectos para marcos como NIM de NVIDIA, TensorRT-LLM, Triton Inference Server y RayService, con ejemplos de modelos como Llama3-8B y Llama 3.1 405B. Incluye implementaciones de varios nodos mediante el LeaderWorkerSet de K8s, el escalado automático de EKS, las GPU de instancia múltiple (MIG) y casos de uso reales, como un bot de audio para ASR, inferencia y TTS.

Tutoriales

Si le interesa configurar plataformas y marcos de machine learning en EKS, explore los tutoriales que se describen en esta sección. Estos tutoriales abarcan desde patrones para aprovechar al máximo los procesadores de la GPU hasta la elección de herramientas de modelado o la creación de marcos de trabajo para sectores especializados.

Cree plataformas de IA generativa en EKS

Ejecute marcos especializados de IA generativa en EKS

Supervisión de las cargas de trabajo de ML

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Limitación para que los pods no se programen en nodos específicos

Control de versiones