Pregunta y respuesta para la evaluación del modelo en Amazon Bedrock

Las preguntas y respuestas se utilizan para tareas como la generación de respuestas automáticas en el servicio de asistencia, la recuperación de información y el aprendizaje electrónico. Si el texto utilizado para formar el modelo fundacional contiene cuestiones como datos incompletos o inexactos, sarcasmo o ironía, la calidad de las respuestas puede deteriorarse.

importante

En lo que respecta a la pregunta y la respuesta, existe un problema conocido en el sistema que impide que los modelos Cohere completen correctamente la evaluación de toxicidad.

Se recomienda utilizar los siguientes conjuntos de datos integrados con el tipo de tarea de preguntas y respuestas.

BoolQ: BoolQ es un conjunto de datos que consta de pares de yes/no preguntas y respuestas. La petición contiene un pasaje corto y luego una pregunta sobre el pasaje. Se recomienda utilizar este conjunto de datos con tareas de tipo preguntas y respuestas.
Preguntas naturales: Las preguntas naturales son un conjunto de datos que consta de preguntas de usuarios reales enviadas a la búsqueda de Google.
TriviaQA: TriviaQA es un conjunto de datos que contiene más de 650 000. question-answer-evidence-triples Este conjunto de datos se utiliza en tareas de preguntas y respuestas.

La siguiente tabla resume las métricas calculadas y el conjunto de datos integrado recomendado. Para especificar correctamente los conjuntos de datos integrados disponibles mediante el SDK o un AWS SDK compatible AWS CLI, utilice los nombres de los parámetros de la columna Conjuntos de datos integrados (API).

Conjuntos de datos integrados disponibles para el tipo de tarea de preguntas y respuestas en Amazon Bedrock
Tipo de tarea	Métrica	Conjuntos de datos integrados (consola)	Conjuntos de datos integrados (API)	Métrica computada
Pregunta y respuesta	Exactitud	BoolQ	`Builtin.BoolQ`	NLP-F1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	Robustez	BoolQ	`Builtin.BoolQ`	F1 y deltaF1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	Toxicidad	BoolQ	`Builtin.BoolQ`	Toxicidad
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`

Para obtener más información sobre cómo se calcula la métrica computada para cada conjunto de datos integrado, consulte Revisión de los informes y las métricas de los trabajos de evaluación de modelos en Amazon Bedrock

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Resumen de texto

Clasificación de textos