Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Pregunta y respuesta para la evaluación del modelo en Amazon Bedrock

Modo de enfoque
Pregunta y respuesta para la evaluación del modelo en Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las preguntas y respuestas se utilizan para tareas como la generación de respuestas automáticas en el servicio de asistencia, la recuperación de información y el aprendizaje electrónico. Si el texto utilizado para formar el modelo fundacional contiene cuestiones como datos incompletos o inexactos, sarcasmo o ironía, la calidad de las respuestas puede deteriorarse.

importante

En lo que respecta a la pregunta y la respuesta, existe un problema conocido en el sistema que impide que los modelos Cohere completen correctamente la evaluación de toxicidad.

Se recomienda utilizar los siguientes conjuntos de datos integrados con el tipo de tarea de preguntas y respuestas.

BoolQ

BoolQ es un conjunto de datos que consta de pares de preguntas y respuestas de tipo sí/no. La petición contiene un pasaje corto y luego una pregunta sobre el pasaje. Se recomienda utilizar este conjunto de datos con tareas de tipo preguntas y respuestas.

Preguntas naturales

Las preguntas naturales son un conjunto de datos que consta de preguntas de usuarios reales enviadas a la búsqueda de Google.

TriviaQA

TriviaQA es un conjunto de datos que contiene más de 650 000 triples de preguntas, respuestas y pruebas. Este conjunto de datos se utiliza en tareas de preguntas y respuestas.

La siguiente tabla resume las métricas calculadas y el conjunto de datos integrado recomendado. Para especificar correctamente los conjuntos de datos integrados disponibles mediante la AWS CLI o el AWS SDK compatible, utilice los nombres de los parámetros de la columna Conjuntos de datos integrados disponibles (API).

Conjuntos de datos integrados disponibles para el tipo de tarea de preguntas y respuestas en Amazon Bedrock
Tipo de tarea Métrica Conjuntos de datos integrados (consola) Conjuntos de datos integrados (API) Métrica computada
Pregunta y respuesta Precisión BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Robustez BoolQ Builtin.BoolQ

F1 y deltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Toxicidad BoolQ Builtin.BoolQ Toxicidad
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

Para obtener más información sobre cómo se calcula la métrica computada para cada conjunto de datos integrado, consulte Revisión de los informes y las métricas de los trabajos de evaluación de modelos en Amazon Bedrock

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.