Como os resultados de um trabalho de avaliação de modelo são salvos no Amazon S3 - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como os resultados de um trabalho de avaliação de modelo são salvos no Amazon S3

A saída de um trabalho de avaliação de modelo é salva no bucket do Amazon S3 que você especificou ao criar o trabalho de avaliação de modelo. Os resultados dos trabalhos de avaliação de modelo são salvos como arquivos de linha JSON (.jsonl).

Os resultados do trabalho de avaliação de modelo são salvos no bucket do S3 que você especificou, da seguinte forma:

  • Para trabalhos de avaliação de modelo com a participação de operadores humanos:

    s3://user-specified-S3-output-path/job-name/job-uuid/datasets/dataset-name/file-uuid_output.jsonl

  • Para trabalhos automáticos de avaliação de modelo:

    s3://user-specified-S3-output-path/job-name/job-uuid/models/model-id/taskTypes/task-type/datasets/dataset/file-uuid_output.jsonl

Os tópicos a seguir descrevem como os resultados de trabalhos de avaliação de modelo automatizados e baseados em operadores humanos são salvos no Amazon S3.

Dados de saída de trabalhos automatizados de avaliação de modelo

Os resultados do trabalho de avaliação automatizado são armazenados no diretório datasets quando o status do trabalho muda para Concluído.

Para cada métrica e conjunto de dados de prompts correspondente que você selecionou quando o trabalho de avaliação de modelo foi criado, um arquivo de linha JSON é gerado no diretório datasets. O arquivo usa a seguinte convenção de nomenclatura: metric_input-dataset.jsonl.

Cada resultado do trabalho de avaliação de modelo começa com a chave automatedEvaluationResult. A primeira chave filha, scores, contém as métricas que você selecionou no console do Amazon Bedrock. Neste exemplo, somente uma única métrica Accuracy foi selecionada. Também contém result, que é o valor calculado para a métrica selecionada. Para saber mais sobre qual valor específico é calculado, consulte Boletins automatizados de trabalhos de avaliação de modelo (console).

A segunda chave, inputRecord, é uma cópia do que você forneceu no conjunto de dados de prompts de entrada.

A terceira chave, modelResponses, contém uma lista de objetos JSON com o ARN do modelo selecionado ao criar o trabalho de avaliação de modelo. Também contém a resposta completa do modelo com base no prompt fornecido.

Veja a seguir um exemplo de saída para o tipo de tarefa de resumo de texto com apenas uma métrica (Accuracy) selecionada.

{ "automatedEvaluationResult": { "scores": [{ "metricName": "Accuracy", "result": 0.31920555233955383 }] }, "inputRecord": { "prompt": "Human: two bodies have been recovered from a flooded coal mine in yiyang city , central china 's henan province , as of #:## thursday morning , rescuers said . Assistant:", "referenceResponse": "two bodies recovered from flooded coal mine in c. china" }, "modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-v2", "response": " Here are the key points I gathered from your news summary:\n\n- Two bodies have been recovered from a flooded coal mine in Yiyang City, in China's Henan province.\n\n- This happened as of Thursday morning, according to rescuers.\n\n- The location is central China's Henan province. \n\n- Yiyang City is where the flooded coal mine is located.\n\n- The coal mine was flooded, leading to the two deaths and need for rescue/recovery efforts.\n\n- This news is developing as of Thursday morning, so the death toll and rescue details may still be unfolding.\n\nPlease let me know if I have accurately summarized the key information or if you would like me to expand on any part of it." }] }

Dados de saída de trabalhos de avaliação de modelo com a participação de operadores humanos

Quando um trabalho de avaliação de modelo é concluído, você vê os parâmetros a seguir nos dados de saída retornados das tarefas de revisão humana.

Parâmetro Tipo de valor Valores de exemplo Descrição
flowDefinitionArn

Cadeia de caracteres

arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name

O nome de recurso da Amazon (ARN) do fluxo de trabalho de revisão humana (definição do fluxo) usado para criar o loop humano.

humanAnswers

Lista de objetos JSON

"answerContent": { "evaluationResults": { "thumbsUpDown": [{ "metricName": "Relevance", "modelResponseId": "0", "result": false }] } }

Uma lista de objetos JSON que contêm respostas de operadores em answerContent.

humanLoopName

String system-generated-hash Uma string hexadecimal de 40 caracteres gerada pelo sistema.
inputRecord Objeto JSON
"inputRecord": { "prompt": "What does vitamin C serum do for skin?", "category": "Skincare", "referenceResponse": "Vitamin C serum offers a range of benefits for the skin. Firstly, it acts.... }
Um objeto JSON que contém um prompt de entrada do conjunto de dados de entrada.
modelResponses Lista de objetos JSON
"modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/model-id", "response": "the-models-response-to-the-prompt" }]
As respostas individuais dos modelos.
inputContent

Objeto

{ "additionalDataS3Uri":"s3://user-specified-S3-URI-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json", "evaluationMetrics":[ { "description":"testing", "metricName":"IndividualLikertScale", "ratingMethod":"IndividualLikertScale" } ], "instructions":"example instructions" }

O conteúdo de entrada do loop humano necessário para iniciar o loop humano em seu bucket do S3.

modelResponseIdMap

Objeto

{ "0":"arn:aws:bedrock:us-west-2::foundation-model/model-id" }

humanAnswers.answerContent.evaluationResultscontém modelResponseId s. O modelResponseIdMap conecta o modelResponseId ao nome do modelo.

Veja a seguir um exemplo de dados de saída de um trabalho de avaliação de modelo.

{ "humanEvaluationResult": [{ "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "humanAnswers": [{ "acceptanceTime": "2023-11-09T19:17:43.107Z", "answerContent": { "evaluationResults": { "thumbsUpDown": [{ "metricName": "Coherence", "modelResponseId": "0", "result": false }, { "metricName": "Accuracy", "modelResponseId": "0", "result": true }], "individualLikertScale": [{ "metricName": "Toxicity", "modelResponseId": "0", "result": 1 }] } }, "submissionTime": "2023-11-09T19:17:52.101Z", "timeSpentInSeconds": 8.994, "workerId": "444455556666", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.Região da AWS.amazonaws.com/Região da AWS_111222", "sub": "c6aa8eb7-9944-42e9-a6b9-" } } }], ...Additional response have been truncated for clarity... }], "humanLoopName": "b3b1c64a2166e001e094123456789012", "inputContent":{ "additionalDataS3Uri":"s3://user-specified-S3-output-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json", "evaluationMetrics":[ { "description":"testing", "metricName":"IndividualLikertScale", "ratingMethod":"IndividualLikertScale" } ], "instructions":"some dummy instructions" }, "modelResponseIdMap":{ "0":"arn:aws:bedrock:Região da AWS::foundation-model/model-id" } }, "inputRecord": { "category": "Fitness", "prompt": "Human: What is High-Intensity Interval Training ? \\n\\nAssistant:", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods. In HIIT, you perform exercises at near-maximum effort during the high-intensity intervals, which can include activities like sprinting, cycling, jumping, or body weight exercises such as burpees or push-ups. These intense intervals are interspersed with short recovery periods to lower your heart rate before the next high-intensity bout. HIIT workouts usually consist of multiple cycles of these intervals, and the number of cycles and the length of intervals can vary. HIIT is known for its time efficiency, making it an excellent choice for those with busy schedules. It offers both aerobic and anaerobic benefits, improving cardiovascular fitness, burning calories, and promoting fat loss, all while boosting metabolism for continued calorie burning post-workout." }, "modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:Região da AWS::foundation-model/model-id", "response": " High-intensity interval training (HIIT) is a form of exercise that involves short bursts of intense activity alternated with recovery periods. Here are some key features of HIIT:\n\n- Alternates short periods of intense anaerobic exercise with less intense recovery periods. The high-intensity periods are typically done at 80-95% of maximum heart rate.\n\n- The duration of the intense periods can range from 5 seconds to 8 minutes, but typically are in the range of 30 seconds to 4 minutes.\n\n- The total HIIT session typically lasts between 10-30 minutes, including warm-up, recovery periods, and cool down. \n\n- Uses exercises like sprints, cycling, rowing, jumping rope, stair climbing, swimming, etc. Movements that get your heart rate up quickly.\n\n- The short, intense intervals help improve cardiovascular fitness by increasing heart rate and oxygen consumption.\n\n- HIIT burns more calories and fat than steady-state cardio in a shorter time period. It also helps build muscle strength and endurance.\n\n- Considered an efficient and effective form of exercise for fat loss and improving aerobic power. But it requires motivation to push yourself during the intense intervals.\n\n- Not suitable for beginners due to the high-intensity. Start with steady-state cardio and build up endurance before trying HIIT.\n\nIn summary, HIIT intersperses intense bursts of" }] } }

A tabela a seguir explica como o Método de classificação que você selecionou para cada métrica no console do Amazon Bedrock é retornado no bucket do Amazon S3. A primeira chave filha em evaluationResults é a forma como o Método de classificação é retornado.

Como os métodos de classificação selecionados no console do Amazon Bedrock são salvos no Amazon S3
Método de classificação selecionado Salvo no Amazon S3
Escala Likert: individual IndividualLikertScale
Escala Likert: comparação ComparisonLikertScale
Botões de escolha ComparisonChoice
Classificação ordinal ComparisonRank
Polegar para cima/para baixo ThumbsUpDown