Observabilidad de IA generativa
Con Amazon CloudWatch, puede observar las cargas de trabajo de IA generativa, tales como agentes de Amazon Bedrock AgentCore
La observabilidad de IA generativa de CloudWatch le permite:
Obtener información sobre los resultados de los usuarios finales, el rendimiento, el estado y la precisión de la IA y, al mismo tiempo, reducir la carga de las evaluaciones con intervención humana (HITL)
Monitorear las invocaciones de los modelos, los agentes (gestionados, autoalojados y de terceros), las bases de conocimiento, las barreras de protección y las herramientas
Avanzar a partir de la experimentación con agentes hasta la producción de aplicaciones innovadoras de IAGen, lo que garantiza también una calidad, un rendimiento y una fiabilidad superiores. Para más información, consulte ¿Qué es Amazon Bedrock AgentCore?
Identificar rápidamente el origen de los errores mediante el rastreo de peticiones de principio a fin, las métricas seleccionadas y los registros
Solucionar problemas en toda la aplicación de IAGen y la infraestructura subyacente mediante el uso de las herramientas de observabilidad de CloudWatch existentes, como Application Signals, Alarms, Dashboards, Sensitive data protection y Logs Insights
Acceder a los seguimientos de peticiones mientras utiliza Amazon Bedrock y envíe seguimientos estructurados de modelos de terceros a CloudWatch mediante el SDK de ADOT. Para obtener información sobre cómo agregar observabilidad a su agente o herramienta de Amazon Bedrock AgentCore, consulte Amazon Bedrock AgentCore
La observabilidad de la IA generativa de CloudWatch ofrece dos paneles prediseñados:
nota
Debe activar Amazon Bedrock para ver el panel invocación de modelos.
Invocaciones de modelos: métricas detalladas sobre el uso del modelo, el consumo de tokens y los costos
Agentes de Amazon Bedrock AgentCore: métricas de rendimiento y decisión para los agentes de Amazon Bedrock
Las métricas clave disponibles en estos paneles incluyen:
Invocaciones totales y promedio
Uso de tokens (total, promedio por consulta, entrada, salida)
Latencia (promedio, P90, P99)
Tasas de error y eventos de limitación
Atribución de costos por aplicación, rol de usuario o usuario específico