Capa 1: creación de una infraestructura de datos y computación confiable para la IA generativa - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Capa 1: creación de una infraestructura de datos y computación confiable para la IA generativa

Para desarrollar aplicaciones de IA generativa, especialmente si es necesario entrenar o ajustar un modelo básico, es fundamental contar con una base de datos y una infraestructura de cómputo sólidas. A medida que las empresas emprenden su viaje hacia la IA generativa, necesitan una infraestructura que pueda soportar todo el ciclo de vida del aprendizaje automático. También deben lograr el equilibrio adecuado entre rendimiento, coste y eficiencia operativa.

Una infraestructura de IA generativa confiable debe ofrecer los siguientes tres componentes clave: la infraestructura básica, la infraestructura de almacenamiento y recuperación vectorial y la infraestructura de cómputo. En conjunto, estos componentes proporcionan la flexibilidad necesaria para satisfacer las necesidades de cualquier proyecto, independientemente de su escala, requisitos o entorno.

Infraestructura básica para implementaciones basadas en API

La mayoría de las organizaciones comienzan su viaje hacia la IA generativa utilizando modelos básicos previamente entrenados. APIs Amazon Bedrock proporciona acceso sin servidor a los principales modelos básicos a través de una API unificada. Esto le ayuda a experimentar e implementar aplicaciones de IA generativas sin administrar una infraestructura compleja. Para estas implementaciones, necesita lo siguiente:

Infraestructura vectorial de almacenamiento y recuperación

A medida que sus aplicaciones de IA generativa vayan madurando, es probable que necesite mejorarlas con conocimientos y contextos específicos del dominio. Con Retrieval Augmented Generation (RAG), el modelo básico hace referencia a una fuente de datos acreditada que se encuentra fuera de sus fuentes de datos de entrenamiento, como los datos o los documentos de su organización, antes de generar una respuesta. Para obtener más información, consulte las opciones y arquitecturas de Retrieval Augmented Generation en. AWS

Las bases de conocimiento de Amazon Bedrock proporcionan una solución totalmente gestionada para crear aplicaciones RAG. Le ayuda a conectar de forma segura los datos de su empresa con los modelos básicos. Para mayor flexibilidad, puede utilizar Amazon OpenSearch Service con funciones de búsqueda vectorial, o puede utilizar Amazon Relational Database Service (Amazon RDS) para PostgreSQL con la extensión pgvector para almacenar incrustaciones vectoriales.

Para realizar operaciones vectoriales eficaces, considere la posibilidad de utilizar instancias EC2 optimizadas para computación de Amazon para la generación de incrustaciones. Considere también la posibilidad de almacenar en caché las incrustaciones a las que se accede con frecuencia mediante Amazon ElastiCache para optimizar el rendimiento y reducir los costes.

Para obtener más información sobre las bases de datos vectoriales y el almacenamiento en caché, consulte ¿Qué es una base de datos vectorial? y Elegir una base de datos AWS vectorial para los casos de uso de RAG.

Infraestructura de cómputo de alto rendimiento para el entrenamiento y el ajuste de modelos

Para las organizaciones que están preparadas para personalizar los modelos básicos, AWS ofrece una infraestructura integral para el entrenamiento y el ajuste de los modelos. Puede utilizar Amazon Simple Storage Service (Amazon S3) como almacenamiento de objetos de bajo coste, escalable y muy duradero para crear plataformas de datos y almacenar datos de entrenamiento y modelos entrenados. Además, AWS Gluees un servicio de integración de datos sin servidor que puede ayudarlo a preparar los datos para el entrenamiento de modelos.

Para la infraestructura de formación, Amazon SageMaker AI ofrece un entorno de aprendizaje automático totalmente gestionado con las herramientas y los flujos de trabajo que necesita para crear, entrenar e implementar modelos. El uso de la SageMaker IA puede reducir considerablemente los gastos operativos. Considere la posibilidad de utilizar instancias de computación acelerada, como las familias de instancias G y P. Estas familias de instancias proporcionan acceso a lo último GPUs de NVIDIA para la formación y la inferencia del aprendizaje automático. También puedes usar AWS Trainiumun acelerador de aprendizaje automático especialmente diseñado que acelera los tiempos de entrenamiento hasta en un 50% y, al mismo tiempo, reduce los costos.

Para proyectos realmente grandes, puedes usar Amazon EC2 UltraClusters. UltraClusters consisten en miles de EC2 instancias aceleradas de Amazon que están ubicadas en una zona de AWS disponibilidad determinada e interconectadas. UltraClusters puede ampliarse a miles de GPUs aceleradores de aprendizaje automático. Ofrecen operaciones de punto flotante por segundo (exaflops) de capacidad de cómputo agregada, lo que reduce los tiempos de entrenamiento y puede pasar time-to-solution de semanas a unos pocos días.

Recomendaciones de implementación

Tenga en cuenta las siguientes recomendaciones para configurar una infraestructura escalable y rentable para sus proyectos de IA generativa:

  • Para experimentar rápidamente y realizar despliegues iniciales, comience con Amazon Bedrock y utilice instancias informáticas de uso general para sus aplicaciones.

  • A medida que sus necesidades evolucionen, implemente soluciones de almacenamiento vectorial mediante Amazon Bedrock Knowledge Bases o Amazon OpenSearch Service. Amplíe su infraestructura en consecuencia.

  • Para una personalización avanzada, estandarice y automatice el aprovisionamiento de entornos de aprendizaje automático seguros y gobernados para cumplir con los requisitos de los equipos distribuidos. Para obtener más información, consulte Configuración de entornos de aprendizaje automático seguros y bien gobernados en AWS (AWS entrada del blog).

  • Adopte las operaciones de aprendizaje automático (MLOps) para automatizar y estandarizar los procesos a lo largo del ciclo de vida del aprendizaje automático. Estos procesos incluyen el desarrollo de modelos, las pruebas, la integración, el lanzamiento y la administración de la infraestructura. Para obtener más información, consulte ¿Qué es MLOps?

  • Para realizar experimentos a pequeña escala o realizar pruebas de conceptos, comience con Amazon SageMaker AI e instancias informáticas de uso general. A medida que vaya escalando a grandes despliegues de producción, considere las instancias de computación EC2 acelerada de Amazon para obtener el máximo rendimiento.

  • Utilice la formación puntual gestionada en SageMaker IA para optimizar el coste de los modelos de formación hasta en un 90% en comparación con las instancias bajo demanda. SageMaker La IA gestiona las interrupciones puntuales en tu nombre.