Comprenda cómo se guardan los resultados de su trabajo de evaluación de modelos en Amazon S3 - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Comprenda cómo se guardan los resultados de su trabajo de evaluación de modelos en Amazon S3

El resultado de un trabajo de evaluación de modelos se guarda en el bucket de Amazon S3 que haya especificado al crear el trabajo de evaluación de modelos. Los resultados de los trabajos de evaluación de modelos se guardan como archivos de JSON líneas (.jsonl).

Los resultados del trabajo de evaluación de modelos se guardan en el bucket de S3 que especificó de la siguiente manera.

  • Para trabajos de evaluación de modelos con trabajadores humanos:

    s3://user-specified-S3-output-path/job-name/job-uuid/datasets/dataset-name/file-uuid_output.jsonl

  • Para trabajos de evaluación de modelos automática:

    s3://user-specified-S3-output-path/job-name/job-uuid/models/model-id/taskTypes/task-type/datasets/dataset/file-uuid_output.jsonl

En los siguientes temas se describe cómo se guardan en Amazon S3 los resultados de un trabajo de evaluación de modelos automatizada y con trabajadores humanos.

Datos de salida de trabajos de evaluación de modelos automatizada

Los resultados del trabajo de evaluación automática se almacenan en el directorio datasets cuando el estado del trabajo cambia a Completado.

Para cada métrica y el conjunto de datos de indicadores correspondiente que haya seleccionado al crear el trabajo de evaluación del modelo, se genera un archivo de JSON líneas en el datasets directorio. El archivo utiliza la siguiente convención de nomenclatura: metric_input-dataset.jsonl.

Cada resultado del trabajo de evaluación de modelos comienza con la clave automatedEvaluationResult. La primera clave secundaria scores contiene las métricas que seleccionó en la consola de Amazon Bedrock. En este ejemplo, solo se seleccionó una métrica, Accuracy. También contiene el result, que se calcula para la métrica seleccionada. Para obtener más información sobre qué valor específico se calcula, consulte Revise las métricas de un trabajo de evaluación de modelos automatizado en Amazon Bedrock (consola).

La segunda clave, inputRecord, es una copia de lo que haya proporcionado en su conjunto de datos de peticiones de entrada.

La tercera clave modelResponses contiene una lista de JSON objetos que contiene los ARN del modelo seleccionado al crear el trabajo de evaluación del modelo. También contiene la respuesta completa del modelo sobre la base de la petición proporcionada.

A continuación figura un ejemplo de resultado para el tipo de tarea de resumen de texto con solo una métrica seleccionada, la precisión.

{ "automatedEvaluationResult": { "scores": [{ "metricName": "Accuracy", "result": 0.31920555233955383 }] }, "inputRecord": { "prompt": "Human: two bodies have been recovered from a flooded coal mine in yiyang city , central china 's henan province , as of #:## thursday morning , rescuers said . Assistant:", "referenceResponse": "two bodies recovered from flooded coal mine in c. china" }, "modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-v2", "response": " Here are the key points I gathered from your news summary:\n\n- Two bodies have been recovered from a flooded coal mine in Yiyang City, in China's Henan province.\n\n- This happened as of Thursday morning, according to rescuers.\n\n- The location is central China's Henan province. \n\n- Yiyang City is where the flooded coal mine is located.\n\n- The coal mine was flooded, leading to the two deaths and need for rescue/recovery efforts.\n\n- This news is developing as of Thursday morning, so the death toll and rescue details may still be unfolding.\n\nPlease let me know if I have accurately summarized the key information or if you would like me to expand on any part of it." }] }

Datos de salida de trabajos de evaluación de modelos con trabajadores humanos.

Cuando se complete un trabajo de evaluación de modelos, verá los siguientes parámetros en los datos de salida que se devuelven en las tareas de revisión humana.

Parámetro Tipo de valor Valores de ejemplo Descripción
flowDefinitionArn

Cadena

arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name

El número de recurso de Amazon (ARN) del flujo de trabajo de revisión humana (definición de flujo) utilizado para crear el bucle humano.

humanAnswers

Lista de JSON objetos

"answerContent": { "evaluationResults": { "thumbsUpDown": [{ "metricName": "Relevance", "modelResponseId": "0", "result": false }] } }

Lista de JSON objetos que contienen las respuestas de los trabajadoresanswerContent.

humanLoopName

Cadena system-generated-hash Un sistema generó una cadena hexadecimal de 40 caracteres.
inputRecord JSONobjeto
"inputRecord": { "prompt": "What does vitamin C serum do for skin?", "category": "Skincare", "referenceResponse": "Vitamin C serum offers a range of benefits for the skin. Firstly, it acts.... }
Un JSON objeto que contiene una solicitud de entrada del conjunto de datos de entrada.
modelResponses Lista de JSON objetos
"modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/model-id", "response": "the-models-response-to-the-prompt" }]
Las respuestas individuales de los modelos.
inputContent

Objeto

{ "additionalDataS3Uri":"s3://user-specified-S3-URI-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json", "evaluationMetrics":[ { "description":"testing", "metricName":"IndividualLikertScale", "ratingMethod":"IndividualLikertScale" } ], "instructions":"example instructions" }

El contenido de entrada de Human Loop necesario para iniciar Human Loop en su bucket de S3.

modelResponseIdMap

Objeto

{ "0":"arn:aws:bedrock:us-west-2::foundation-model/model-id" }

humanAnswers.answerContent.evaluationResultscontiene modelResponseId s. El lo modelResponseIdMap conecta modelResponseId con el nombre del modelo.

A continuación se muestra un ejemplo de datos de salida de un trabajo de evaluación de modelos.

{ "humanEvaluationResult": [{ "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "humanAnswers": [{ "acceptanceTime": "2023-11-09T19:17:43.107Z", "answerContent": { "evaluationResults": { "thumbsUpDown": [{ "metricName": "Coherence", "modelResponseId": "0", "result": false }, { "metricName": "Accuracy", "modelResponseId": "0", "result": true }], "individualLikertScale": [{ "metricName": "Toxicity", "modelResponseId": "0", "result": 1 }] } }, "submissionTime": "2023-11-09T19:17:52.101Z", "timeSpentInSeconds": 8.994, "workerId": "444455556666", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.Región de AWS.amazonaws.com/Región de AWS_111222", "sub": "c6aa8eb7-9944-42e9-a6b9-" } } }], ...Additional response have been truncated for clarity... }], "humanLoopName": "b3b1c64a2166e001e094123456789012", "inputContent":{ "additionalDataS3Uri":"s3://user-specified-S3-output-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json", "evaluationMetrics":[ { "description":"testing", "metricName":"IndividualLikertScale", "ratingMethod":"IndividualLikertScale" } ], "instructions":"some dummy instructions" }, "modelResponseIdMap":{ "0":"arn:aws:bedrock:Región de AWS::foundation-model/model-id" } }, "inputRecord": { "category": "Fitness", "prompt": "Human: What is High-Intensity Interval Training ? \\n\\nAssistant:", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods. In HIIT, you perform exercises at near-maximum effort during the high-intensity intervals, which can include activities like sprinting, cycling, jumping, or body weight exercises such as burpees or push-ups. These intense intervals are interspersed with short recovery periods to lower your heart rate before the next high-intensity bout. HIIT workouts usually consist of multiple cycles of these intervals, and the number of cycles and the length of intervals can vary. HIIT is known for its time efficiency, making it an excellent choice for those with busy schedules. It offers both aerobic and anaerobic benefits, improving cardiovascular fitness, burning calories, and promoting fat loss, all while boosting metabolism for continued calorie burning post-workout." }, "modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:Región de AWS::foundation-model/model-id", "response": " High-intensity interval training (HIIT) is a form of exercise that involves short bursts of intense activity alternated with recovery periods. Here are some key features of HIIT:\n\n- Alternates short periods of intense anaerobic exercise with less intense recovery periods. The high-intensity periods are typically done at 80-95% of maximum heart rate.\n\n- The duration of the intense periods can range from 5 seconds to 8 minutes, but typically are in the range of 30 seconds to 4 minutes.\n\n- The total HIIT session typically lasts between 10-30 minutes, including warm-up, recovery periods, and cool down. \n\n- Uses exercises like sprints, cycling, rowing, jumping rope, stair climbing, swimming, etc. Movements that get your heart rate up quickly.\n\n- The short, intense intervals help improve cardiovascular fitness by increasing heart rate and oxygen consumption.\n\n- HIIT burns more calories and fat than steady-state cardio in a shorter time period. It also helps build muscle strength and endurance.\n\n- Considered an efficient and effective form of exercise for fat loss and improving aerobic power. But it requires motivation to push yourself during the intense intervals.\n\n- Not suitable for beginners due to the high-intensity. Start with steady-state cardio and build up endurance before trying HIIT.\n\nIn summary, HIIT intersperses intense bursts of" }] } }

En la siguiente tabla se explica cómo el Método de clasificación que haya seleccionado para cada métrica de la consola de Amazon Bedrock se devuelve a su bucket de Amazon S3. La primera clave secundaria que aparece debajo de evaluationResults es cómo se devuelve el Método de clasificación.

Cómo se guardan en Amazon S3 los métodos de clasificación seleccionados en la consola de Amazon Bedrock
Método de clasificación seleccionado Guardado en Amazon S3
Escala Likert: individual IndividualLikertScale
Escala Likert: comparación ComparisonLikertScale
Botones de selección ComparisonChoice
Rango ordinal ComparisonRank
Pulgares arriba/abajo ThumbsUpDown