Recursos para começar a usar IA/ML no Amazon EKS - Amazon EKS

Ajudar a melhorar esta página

Para contribuir com este guia de usuário, escolha o link Editar esta página no GitHub, disponível no painel direito de cada página.

Recursos para começar a usar IA/ML no Amazon EKS

Para entrar no machine learning no EKS, comece escolhendo entre esses padrões prescritivos para preparar rapidamente um cluster de EKS e software e hardware de ML para começar a executar workloads de ML.

Workshops

Workshop de IA generativa no Amazon EKS

Saiba como começar a usar aplicações e inferências de grande modelo de linguagem (LLM) no Amazon EKS. Descubra como implantar e gerenciar workloads de LLM em nível de produção. Por meio de laboratórios práticos, você explorará como aproveitar o Amazon EKS junto com serviços da AWS e ferramentas de código aberto para criar soluções robustas de LLM. O ambiente do workshop fornece toda a infraestrutura e as ferramentas necessárias, permitindo que você se concentre no aprendizado e na implementação.

IA generativa no Amazon EKS usando Neuron

Saiba como começar a usar aplicações e inferências de grande modelo de linguagem (LLM) no Amazon EKS. Descubra como implantar e gerenciar workloads de LLM em nível de produção, implementar padrões RAG avançados com bancos de dados de vetores e criar aplicações de LLM baseadas em dados usando estruturas de código aberto. Por meio de laboratórios práticos, você explorará como aproveitar o Amazon EKS junto com serviços da AWS e ferramentas de código aberto para criar soluções robustas de LLM. O ambiente do workshop fornece toda a infraestrutura e as ferramentas necessárias, permitindo que você se concentre no aprendizado e na implementação.

Melhores práticas

Os tópicos focados em IA/ML no guia de melhores práticas do Amazon EKS fornecem recomendações detalhadas nas áreas a seguir para otimizar suas workloads de IA/ML no Amazon EKS.

Computação e escalonamento automático de IA/ML

Esta seção descreve as melhores práticas para otimizar a computação de IA/ML e o escalonamento automático no Amazon EKS, com foco no gerenciamento de recursos de GPU, resiliência de nós e escalabilidade de aplicações. Ela fornece estratégias como programar workloads com rótulos e afinidade de nós conhecidos, usar blocos de capacidade de ML ou reservas de capacidade sob demanda e implementar verificações de integridade de nós com ferramentas como o Agente de monitoramento de nós do EKS.

Rede de IA/ML

Esta seção descreve as melhores práticas para otimizar a rede de IA/ML no Amazon EKS para melhorar a performance e a escalabilidade, incluindo estratégias como selecionar instâncias com maior largura de banda da rede ou Elastic Fabric Adapter (EFA) para treinamento distribuído, instalar ferramentas como MPI e NCCL e habilitar a delegação de prefixos para aumentar os endereços IP e melhorar os tempos de lançamento do pod.

Segurança de IA/ML

Esta seção se concentra em proteger o armazenamento de dados e garantir a conformidade das workloads de IA/ML no Amazon EKS, incluindo práticas como o uso do Amazon S3 com o AWS Key Management Service (KMS) para criptografia do lado do servidor (SSE-KMS), a configuração de buckets com chaves regionais do KMS e chaves de bucket do S3 para reduzir custos, a concessão de permissões do IAM para ações do KMS, como decodificação em pods do EKS, e auditoria com os logs do AWS CloudTrail.

Armazenamento de IA/ML

Esta seção fornece as melhores práticas para otimizar o armazenamento em workloads de IA/ML no Amazon EKS, incluindo práticas como implantar modelos usando drivers CSI para montar serviços como S3, FSx para Lustre ou EFS como volumes persistentes, selecionar armazenamento com base nas necessidades da workload (por exemplo, FSx para Lustre para treinamento distribuído com opções como Scratch-SSD ou SSD persistente) e habilitar recursos como compressão e distribuição de dados.

Observabilidade de IA/ML

Esta seção se concentra no monitoramento e na otimização da utilização da GPU para workloads de IA/ML no Amazon EKS para melhorar a eficiência e reduzir custos, incluindo estratégias como o objetivo do alto uso da GPU com ferramentas como o CloudWatch Container Insights e o DCGM-Exporter da NVIDIA integrado com Prometheus e Grafana, além de métricas que recomendamos que você analise para suas workload sde IA/ML.

Performance de IA/ML

Esta seção se concentra em aprimorar a escalabilidade e a performance de aplicaçãoes para workloads de IA/ML no Amazon EKS por meio do gerenciamento de imagens de contêineres e da otimização de startups, incluindo práticas como o uso de imagens básicas pequenas e leves ou contêineres do AWS Deep Learning com compilações de vários estágios, pré-carregamento de imagens por meio de snapshots do EBS ou pré-inserção em cache de runtime usando DaemonSets ou implantações.

Arquiteturas de referência

Explore esses repositórios do GitHub para obter arquiteturas de referência, código de amostra e utilitários para implementar treinamento e inferência distribuídos para workloads de IA/ML no Amazon EKS e em outros serviços da AWS.

AWSome Distributed Training

Este repositório oferece uma coleção de melhores práticas, arquiteturas de referência, exemplos de treinamento de modelos e utilitários para treinar modelos grandes na AWS. Ele oferece suporte a treinamento distribuído com o Amazon EKS, incluindo modelos do CloudFormation para clusters EKS, compilações personalizadas de AMI e contêiner, casos de teste para estruturas como PyTorch (DDP/FSDP, MegatronLM, NeMo) e JAX e ferramentas para validação, observabilidade e monitoramento de performance, como o exportador EFA Prometheus e a Nvidia Nsight Systems.

AWSome Inference

Este repositório fornece arquiteturas de referência e casos de teste para otimizar soluções de inferência na AWS, com foco no Amazon EKS e nas instâncias aceleradas do EC2. Ele inclui configurações de infraestrutura para clusters VPC e EKS, projetos para estruturas como NVIDIA NIMs, TensorRT-LLM, Triton Inference Server e RayService, com exemplos de modelos como Llama3-8B e Llama 3.1 405B. Apresenta implantações de vários nós usando K8s LeaderWorkerSet, ajuste de escala automático do EKS, GPUs de várias instâncias (MIG) e casos de uso reais, como um bot de áudio para ASR, inferência e TTS.

Tutoriais

Se você tem interesse em configurar plataformas e estruturas de machine learning no EKS, explore os tutoriais descritos nesta seção. Esses tutoriais abrangem tudo, desde padrões para fazer o melhor uso dos processadores de GPU até a escolha de ferramentas de modelagem e a criação de estruturas para setores especializados.

Criar plataformas de IA generativa no EKS

Executar estruturas de IA generativa especializadas no EKS

Maximize a performance da GPU NVIDIA para ML no EKS

Executar workloads de codificação de vídeo no EKS

Acelerar o carregamento de imagens para workloads de inferência

Monitoramento de workloads de ML