Evaluación LLMs de aplicaciones de salud y ciencias de la vida - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Evaluación LLMs de aplicaciones de salud y ciencias de la vida

En esta sección se ofrece una visión general completa de los requisitos y las consideraciones para evaluar modelos lingüísticos extensos (LLMs) en los casos de uso de la sanidad y las ciencias de la vida.

Es importante utilizar datos básicos y comentarios de las pymes para mitigar los sesgos y validar la precisión de la respuesta generada por la LLM. En esta sección se describen las mejores prácticas para recopilar y conservar los datos de formación y pruebas. También le ayuda a implementar barreras y a medir el sesgo y la imparcialidad de los datos. También se analizan las tareas médicas más comunes del procesamiento del lenguaje natural (PNL), como la clasificación de textos, el reconocimiento de entidades nombradas y la generación de textos, y las métricas de evaluación asociadas.

También presenta los flujos de trabajo para realizar la evaluación del LLM durante la fase de experimentación de la formación y la fase de posproducción. El monitoreo de modelos y las operaciones de LLM son elementos importantes de este proceso de evaluación.

Datos de entrenamiento y pruebas para tareas de PNL médica

Las tareas de la PNL médica suelen utilizar corpus médicos (por ejemplo PubMed) o información del paciente (como las notas sobre las visitas de los pacientes a la clínica) para clasificar, resumir y generar información. El personal médico, como los médicos, los administradores de atención médica o los técnicos, varía en cuanto a experiencia y puntos de vista. Debido a la subjetividad entre este personal médico, los conjuntos de datos de formación y pruebas más pequeños representan un riesgo de sesgo. Para mitigar este riesgo, recomendamos las siguientes prácticas recomendadas:

  • Cuando utilice una solución LLM previamente entrenada, asegúrese de disponer de una cantidad adecuada de datos de prueba. Los datos de la prueba deben coincidir exactamente o parecerse mucho a los datos médicos reales. Según la tarea, puede oscilar entre 20 y más de 100 registros.

  • Al afinar un LLM, recopile un número suficiente de registros etiquetados (veraces) de diversos ámbitos SMEs de la medicina objetivo. Un punto de partida general son al menos 100 registros de alta calidad, y recomendamos no más de 20 registros de cada PYME. Sin embargo, dada la complejidad de la tarea y sus criterios de aceptación de la precisión, es posible que se necesiten más registros.

  • Si es necesario para su caso de uso médico, implemente barreras y mida el sesgo y la imparcialidad de los datos. Por ejemplo, asegúrese de que el LLM evite los diagnósticos erróneos debidos a los perfiles raciales de los pacientes. Para obtener más información, consulte la Seguridad y barandas sección de esta guía.

Muchas empresas de investigación y desarrollo de la IA, como Anthropic, ya han incorporado barreras en sus modelos básicos para evitar la toxicidad. Puede utilizar la detección de toxicidad para comprobar las indicaciones de entrada y las respuestas de salida. LLMs Para obtener más información, consulte Detección de toxicidad en la documentación de Amazon Comprehend.

En cualquier tarea de IA generativa, existe el riesgo de alucinaciones. Puedes mitigar este riesgo realizando tareas de PNL, como la clasificación. También puede utilizar técnicas más avanzadas, como las métricas de similitud de texto. BertScorees una métrica de similitud de texto que se utiliza habitualmente. Para obtener más información sobre las técnicas que puede utilizar para mitigar las alucinaciones, consulte Una encuesta exhaustiva sobre las técnicas de mitigación de las alucinaciones en modelos lingüísticos extensos.

Métricas para las tareas médicas de PNL

Puede crear métricas cuantificables después de establecer los datos básicos y las etiquetas proporcionadas por las pymes para la formación y las pruebas. Comprobar la calidad mediante procesos cualitativos, como las pruebas de stress y la revisión de los resultados del LLM, es útil para un desarrollo rápido. Sin embargo, las métricas actúan como puntos de referencia cuantitativos que respaldan las futuras operaciones de LLM y actúan como puntos de referencia de rendimiento para cada versión de producción.

Entender la tarea médica es fundamental. Por lo general, las métricas se asignan a una de las siguientes tareas generales de la PNL: