Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Evaluación de soluciones de IA generativa para el cuidado de la salud
Evaluar las soluciones de IA para el sector sanitario que cree es fundamental para garantizar que sean eficaces, fiables y escalables en los entornos médicos del mundo real. Utilice un enfoque sistemático para evaluar el rendimiento de cada componente de la solución. El siguiente es un resumen de las metodologías y métricas que puede utilizar para evaluar su solución.
Temas
Evaluación de la extracción de información
Evalúe el rendimiento de las soluciones de extracción de información, como el analizador inteligente de currículums y el extractor de entidades personalizado. Puede medir la alineación de las respuestas de estas soluciones mediante un conjunto de datos de prueba. Si no tiene un conjunto de datos que abarque perfiles versátiles de talentos del sector de la salud y los historiales médicos de los pacientes, puede crear un conjunto de datos de pruebas personalizado utilizando la capacidad de razonamiento de un LLM. Por ejemplo, puedes usar un modelo de parámetros grande, como Anthropic Claude modelos, para generar un conjunto de datos de prueba.
Las siguientes son tres métricas clave que puede utilizar para evaluar los modelos de extracción de información:
-
Precisión e integridad: estas métricas evalúan hasta qué punto el resultado capturó la información correcta y completa presente en los datos básicos. Esto implica comprobar tanto la exactitud de la información extraída como la presencia de todos los detalles relevantes en la información extraída.
-
Semejanza y relevancia: estas métricas evalúan las similitudes semánticas, estructurales y contextuales entre los datos de salida y los datos basados en la verdad básica (la similitud) y el grado en que el resultado se alinea con el contenido, el contexto y la intención de los datos basados en la verdad básica (la relevancia) y los aborda.
-
Tasa de recuperación o captura ajustada: estas tasas determinan empíricamente cuántos de los valores actuales de los datos basados en la verdad básica fueron identificados correctamente por el modelo. La tasa debe incluir una penalización para todos los valores falsos que extraiga el modelo.
-
Puntuación de precisión: la puntuación de precisión le ayuda a determinar cuántos falsos positivos están presentes en las predicciones, en comparación con los positivos verdaderos. Por ejemplo, puedes usar métricas de precisión para medir la exactitud de la habilidad extraída.
Evaluación de soluciones de RAG con varios recuperadores
Para evaluar en qué medida el sistema recupera la información relevante y con qué eficacia la utiliza para generar respuestas precisas y adecuadas al contexto, puede utilizar las siguientes métricas:
-
Relevancia de la respuesta: mida la relevancia de la respuesta generada, que utiliza el contexto recuperado, para la consulta original.
-
Precisión del contexto: del total de resultados recuperados, evalúe la proporción de documentos o fragmentos recuperados que son relevantes para la consulta. Una mayor precisión del contexto indica que el mecanismo de recuperación es eficaz a la hora de seleccionar la información relevante.
-
Fidelidad: evalúa la precisión con la que la respuesta generada refleja la información en el contexto recuperado. En otras palabras, mide si la respuesta se mantiene fiel a la información de origen.
Evaluar una solución mediante un LLM
Puedes usar una técnica llamada LLM- as-a-judge para evaluar las respuestas de texto de tu solución de IA generativa. Implica utilizarla LLMs para evaluar y valorar el rendimiento de los resultados del modelo. Esta técnica utiliza las capacidades de Amazon Bedrock para emitir juicios sobre varios atributos, como la calidad de la respuesta, la coherencia, el cumplimiento, la precisión y la integridad de los datos según las preferencias humanas o la veracidad de los datos fundamentales. Para realizar una evaluación exhaustiva, se utilizan técnicas chain-of-thought (CoT)
-
Comparación por pares: entregue al evaluador del LLM una pregunta médica y varias respuestas generadas por diferentes versiones iterativas de los sistemas RAG que creó. Pide al evaluador del LLM que determine la mejor respuesta en función de la calidad de la respuesta, la coherencia y el cumplimiento de la pregunta original.
-
Calificación con una sola respuesta: esta técnica es adecuada para los casos de uso en los que es necesario evaluar la precisión de la categorización, como la clasificación de los resultados de los pacientes, la categorización del comportamiento de los pacientes, la probabilidad de reingreso del paciente y la categorización del riesgo. Utilice el evaluador LLM para analizar la categorización o clasificación individual de forma aislada y evalúe el razonamiento que ha proporcionado comparándolo con datos basados en datos básicos.
-
Calificación guiada por referencia: proporcione al evaluador del LLM una serie de preguntas médicas que requieran respuestas descriptivas. Cree ejemplos de respuestas a estas preguntas, como respuestas de referencia o respuestas ideales. Pida al evaluador del LLM que compare la respuesta generada por el LLM con las respuestas de referencia o las respuestas ideales, y pídale al evaluador del LLM que califique la respuesta generada en función de su precisión, integridad, similitud, relevancia u otros atributos. Esta técnica le ayuda a evaluar si las respuestas generadas se alinean con una respuesta estándar o ejemplar bien definida.