Información general de la solución -

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Información general de la solución

Un marco de ML escalable

En una empresa con millones de clientes repartidos en varias líneas de negocio, los flujos de trabajo de ML requieren la integración de los datos que son propiedad de equipos aislados y administrados por ellos y utilizan diferentes herramientas para aprovechar el valor empresarial. Los bancos están comprometidos a proteger los datos de sus clientes. Del mismo modo, la infraestructura utilizada para el desarrollo de los modelos de ML también está sujeta a altos estándares de seguridad. Esta seguridad adicional suma complejidad y repercute en el tiempo de creación de valor de nuevos modelos de ML. En un marco de aprendizaje automático escalable, puede utilizar un conjunto de herramientas estandarizado y modernizado para reducir el esfuerzo necesario para combinar diferentes herramientas y simplificar el route-to-live proceso para los nuevos modelos de aprendizaje automático.

Tradicionalmente, la administración y el soporte de las actividades de ciencia de datos en el sector de los servicios financieros están controlados por un equipo de plataforma central que recopila los requisitos, aprovisiona los recursos y mantiene la infraestructura para los equipos de datos de toda la organización. Para escalar rápidamente el uso de ML en los equipos federados de toda la organización, se puede utilizar un marco de ML escalable para brindar capacidades de autoservicio a los desarrolladores de nuevos modelos y canalizaciones. Esto permite a los desarrolladores implementar una infraestructura moderna, previamente aprobada, estandarizada y segura. En última instancia, estas capacidades de autoservicio reducen la dependencia de su organización de los equipos de plataformas centralizadas y aceleran la rentabilidad del desarrollo de modelos de ML.

El marco escalable de ML sirve para que los consumidores de datos (por ejemplo, científicos de datos o ingenieros de ML) aprovechen el valor empresarial y les permite hacer lo siguiente:

  • Explorar y descubrir los datos previamente aprobados que se requieren para el entrenamiento de modelos

  • Acceder a los datos previamente aprobados de forma rápida y sencilla

  • Utilizar datos previamente aprobados para demostrar la viabilidad del modelo

  • Lanzar el modelo probado a producción para que lo usen otros

El siguiente diagrama destaca el end-to-end flujo del marco y la forma simplificada de operar para los casos de uso del aprendizaje automático.

AWS Service Catalog shared account connecting to development, test, and production accounts.

En un contexto más amplio, los consumidores de datos utilizan un acelerador sin servidor denominado data.all para obtener datos de varios lagos de datos y, a continuación, los utilizan para entrenar sus modelos, como se ilustra en el siguiente diagrama.

Data flow diagram showing MLOps and other applications interacting with data producers and consumers.

En un nivel inferior, el marco de ML escalable contiene lo siguiente:

Un concentrador central de metadatos

Data.all es un acelerador sin servidor que puede integrarse con los lagos de datos de AWS existentes para recopilar metadatos en un concentrador central. Una easy-to-use interfaz de usuario simple en data.all muestra los metadatos asociados a los conjuntos de datos de varios lagos de datos existentes. Esto permite a los usuarios técnicos y no técnicos buscar, explorar y solicitar acceso a datos valiosos que pueden utilizar en sus laboratorios de ML. Datos. Todos los usos AWS Lake Formation, AWS Lambda Amazon Elastic Container Service (Amazon ECS) AWS Fargate, Amazon OpenSearch Service y. AWS Glue

SageMaker validación

Para demostrar las capacidades de la SageMaker IA en una variedad de arquitecturas de procesamiento de datos y aprendizaje automático, el equipo que implementa las capacidades selecciona, junto con el equipo directivo bancario, casos de uso de complejidad variable de diferentes divisiones de clientes bancarios. Los datos del caso de uso se ocultan y están disponibles en un depósito de datos local de Amazon Simple Storage Service (Amazon S3) en la cuenta de desarrollo del caso de uso para la fase de prueba de capacidades.

Cuando se completa la migración del modelo del entorno de entrenamiento original a una arquitectura de SageMaker IA, el lago de datos alojado en la nube permite que los datos estén disponibles para que los lean los modelos de producción. A continuación, las predicciones generadas por los modelos de producción se vuelven a escribir en el lago de datos.

Una vez migrados los casos de uso candidatos, el marco de ML escalable toma una base de referencia inicial para las métricas objetivo. Puede comparar la base de referencia con los tiempos anteriores en las instalaciones o con otros proveedores de servicios en la nube como prueba de las mejoras de tiempo que permite el marco de ML escalable.