Ayude a mejorar esta página
Para contribuir a esta guía del usuario, elija el enlace Edit this page on GitHub que se encuentra en el panel derecho de cada página.
Recursos para empezar a utilizar la IA/ML en Amazon EKS
Para comenzar a utilizar el machine learning en EKS, elija uno de estos patrones prescriptivos para preparar rápidamente un clúster de EKS y el software y hardware de ML para comenzar a ejecutar cargas de trabajo de ML.
Talleres
Taller sobre IA generativa en Amazon EKS
Descubra cómo empezar a utilizar las aplicaciones de modelos de lenguaje de gran tamaño (LLM) y la inferencia en Amazon EKS. Descubra cómo implementar y administrar cargas de trabajo de LLM aptas para producción. Mediante talleres prácticos, explorará cómo aprovechar Amazon EKS junto con los servicios de AWS y las herramientas de código abierto para crear soluciones de LLM sólidas. El entorno del taller proporciona toda la infraestructura y las herramientas necesarias, lo que le permite centrarse en el aprendizaje y la implementación.
IA generativa en Amazon EKS con Neuron
Descubra cómo empezar a utilizar las aplicaciones de modelos de lenguaje de gran tamaño (LLM) y la inferencia en Amazon EKS. Descubra cómo implementar y administrar cargas de trabajo de LLM aptas para producción, cómo implementar patrones RAG avanzados con bases de datos vectoriales y cómo crear aplicaciones de LLM respaldadas por datos utilizando marcos de código abierto. Mediante talleres prácticos, explorará cómo aprovechar Amazon EKS junto con los servicios de AWS y las herramientas de código abierto para crear soluciones de LLM sólidas. El entorno del taller proporciona toda la infraestructura y las herramientas necesarias, lo que le permite centrarse en el aprendizaje y la implementación.
prácticas recomendadas
Los temas centrados en la IA/ML de la guía de prácticas recomendadas de Amazon EKS proporcionan recomendaciones detalladas en las siguientes áreas para optimizar las cargas de trabajo de IA/ML en Amazon EKS.
Cálculo y escalado automático de IA/ML
En esta sección, se describen las prácticas recomendadas para optimizar el cálculo y el escalado automático de IA/ML en Amazon EKS, centrándose en la administración de los recursos de la GPU, la resiliencia de los nodos y el escalado de las aplicaciones. Proporciona estrategias como la programación de las cargas de trabajo con etiquetas conocidas y la afinidad entre nodos, el uso de bloques de capacidad de ML o reservas de capacidad bajo demanda, y la implementación de comprobaciones de estado de los nodos con herramientas como EKS Node Monitoring Agent.
Redes de IA/ML
En esta sección, se describen las prácticas recomendadas para optimizar las redes de IA/ML en Amazon EKS a fin de mejorar el rendimiento y la escalabilidad, incluidas estrategias como seleccionar instancias con un mayor ancho de banda de la red o Elastic Fabric Adapter (EFA) para el entrenamiento distribuido, instalar herramientas como MPI y NCCL, y habilitar la delegación de prefijos para aumentar las direcciones IP y mejorar los tiempos de lanzamiento de los pods.
Seguridad de IA/ML
Esta sección se centra en proteger el almacenamiento de datos y garantizar la conformidad de las cargas de trabajo de IA/ML en Amazon EKS, incluidas prácticas como el uso de Amazon S3 con AWS Key Management Service (KMS) para el cifrado del servidor (SSE-KMS), la configuración de buckets con claves KMS regionales y claves de bucket de S3 para reducir los costos, la concesión de permisos de IAM para acciones de KMS (como el descifrado de pods de EKS) y la auditoría con registros de AWS CloudTrail.
Almacenamiento de IA/ML
En esta sección, se describen las prácticas recomendadas para optimizar el almacenamiento en las cargas de trabajo de IA/ML en Amazon EKS, incluidas prácticas como implementar modelos con controladores de CSI para montar servicios como S3, FSx for Lustre o EFS como volúmenes persistentes, seleccionar el almacenamiento en función de las necesidades de carga de trabajo (p. ej., FSx for Lustre para entrenamiento distribuido con opciones como Scratch-SSD o Persistent-SSD) y habilitar características como la compresión de datos y la división en bandas.
Observabilidad de IA/ML
Esta sección se centra en la supervisión y la optimización del uso de la GPU para las cargas de trabajo de IA/ML en Amazon EKS a fin de mejorar la eficiencia y reducir los costos, e incluye estrategias como centrarse en un uso elevado de la GPU con herramientas como CloudWatch Container Insights y el exportador de DCGM de NVIDIA integrado con Prometheus y Grafana, y métricas que le recomendamos que analice para sus cargas de trabajo de IA/ML.
Rendimiento de IA/ML
Esta sección se centra en mejorar el escalado y el rendimiento de las aplicaciones para las cargas de trabajo de IA/ML en Amazon EKS mediante la administración de imágenes de contenedores y la optimización del inicio, incluidas prácticas como el uso de imágenes base pequeñas y ligeras o AWS Deep Learning Containers con compilaciones de varias etapas, la precarga de imágenes mediante instantáneas de EBS o la extracción previa a la memoria caché de tiempo de ejecución mediante DaemonSets o implementaciones.
Arquitecturas de referencia
Explore estos repositorios de GitHub para obtener arquitecturas de referencia, código de muestra y utilidades para implementar el entrenamiento distribuido y la inferencia para cargas de trabajo de IA/ML en Amazon EKS y otros servicios de AWS.
AWSome Distributed Training
Este repositorio ofrece una colección de prácticas recomendadas, arquitecturas de referencia, ejemplos de entrenamiento del modelo y utilidades para entrenar modelos de gran tamaño en AWS. Es compatible con el entrenamiento distribuido con Amazon EKS, que incluye plantillas de CloudFormation para clústeres de EKS, compilaciones personalizadas de AMI y contenedores, casos de prueba para marcos como PyTorch (DDP/FSDP, MegatronLM, NeMo) y JAX, y herramientas para la validación, la observabilidad y el monitoreo del rendimiento, como exportadores Prometheus de EFA y sistemas Nvidia Nsight.
AWSome Inference
Este repositorio proporciona arquitecturas de referencia y casos de prueba para optimizar las soluciones de inferencia en AWS, centrándose en Amazon EKS y en las instancias de EC2 aceleradas. Incluye configuraciones de infraestructura para clústeres de VPC y EKS, proyectos para marcos como NIM de NVIDIA, TensorRT-LLM, Triton Inference Server y RayService, con ejemplos de modelos como Llama3-8B y Llama 3.1 405B. Incluye implementaciones de varios nodos mediante el LeaderWorkerSet de K8s, el escalado automático de EKS, las GPU de instancia múltiple (MIG) y casos de uso reales, como un bot de audio para ASR, inferencia y TTS.
Tutoriales
Si le interesa configurar plataformas y marcos de machine learning en EKS, explore los tutoriales que se describen en esta sección. Estos tutoriales abarcan desde patrones para aprovechar al máximo los procesadores de la GPU hasta la elección de herramientas de modelado o la creación de marcos de trabajo para sectores especializados.
Cree plataformas de IA generativa en EKS
Ejecute marcos especializados de IA generativa en EKS
Maximice el rendimiento de la GPU NVIDIA para ML en EKS
-
Implemente el uso compartido de GPU para utilizar de forma eficiente las GPU NVIDIA en los clústeres de EKS:
-
Utilice GPU de múltiples instancias (MIG) y microservicios NIM para ejecutar más pods por GPU en los clústeres de EKS:
-
Cree e implemente un sistema de machine learning escalable en Kubernetes con Kubeflow en AWS