Enregistrement des résultats d’une tâche d’évaluation de modèle dans Amazon S3 - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Enregistrement des résultats d’une tâche d’évaluation de modèle dans Amazon S3

La sortie d’une tâche d’évaluation de modèle est enregistrée dans le compartiment Amazon S3 que vous avez spécifié au moment où vous avez créé la tâche d’évaluation de modèle. Les résultats des tâches d’évaluation de modèle sont enregistrés sous forme de fichiers de lignes JSON (.jsonl).

Voici comment les résultats des tâches d’évaluation de modèle sont enregistrés dans le compartiment S3 que vous avez spécifié.

  • Pour les tâches d’évaluation de modèle faisant appel à des travailleurs humains :

    s3://user-specified-S3-output-path/job-name/job-uuid/datasets/dataset-name/file-uuid_output.jsonl

  • Pour les tâches d’évaluation de modèle automatique :

    s3://user-specified-S3-output-path/job-name/job-uuid/models/model-id/taskTypes/task-type/datasets/dataset/file-uuid_output.jsonl

Les rubriques suivantes expliquent comment les résultats d’une tâche d’évaluation de modèle automatisée ou basée sur des travailleurs humains sont enregistrés dans Amazon S3.

Données de sortie résultant de tâches d’évaluation de modèle automatisée

Les résultats d’une tâche d’évaluation automatisée sont stockés dans le répertoire datasets lorsque le statut de la tâche passe à Terminé.

Pour chaque métrique et le jeu de données de requêtes correspondant que vous avez sélectionnés lors de la création de la tâche d’évaluation de modèle, un fichier de lignes JSON est généré dans le répertoire datasets. Le fichier utilise la convention de dénomination suivante : metric_input-dataset.jsonl.

Chaque résultat de la tâche d’évaluation de modèle commence par la clé automatedEvaluationResult. La première clé enfant scores contient les métriques que vous avez sélectionnées dans la console Amazon Bedrock. Dans cet exemple, seule une métrique Accuracy a été sélectionnée. Il contient également result, qui est la valeur calculée pour la métrique sélectionnée. Pour en savoir plus sur la valeur spécifique qui est calculée, consultez Bulletins de tâches d’évaluation de modèle automatisée (console).

La deuxième clé, inputRecord, est une copie de ce que vous avez fourni dans votre jeu de données de requêtes en entrée.

La troisième clé, modelResponses, contient une liste d’objets JSON contenant l’ARN du modèle que vous avez sélectionné lors de la création de la tâche d’évaluation de modèle. Elle contient également la réponse complète du modèle en fonction de la requête fournie.

Voici un exemple de sortie pour la tâche de type résumé de texte avec une seule métrique sélectionnée : Accuracy (précision).

{ "automatedEvaluationResult": { "scores": [{ "metricName": "Accuracy", "result": 0.31920555233955383 }] }, "inputRecord": { "prompt": "Human: two bodies have been recovered from a flooded coal mine in yiyang city , central china 's henan province , as of #:## thursday morning , rescuers said . Assistant:", "referenceResponse": "two bodies recovered from flooded coal mine in c. china" }, "modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-v2", "response": " Here are the key points I gathered from your news summary:\n\n- Two bodies have been recovered from a flooded coal mine in Yiyang City, in China's Henan province.\n\n- This happened as of Thursday morning, according to rescuers.\n\n- The location is central China's Henan province. \n\n- Yiyang City is where the flooded coal mine is located.\n\n- The coal mine was flooded, leading to the two deaths and need for rescue/recovery efforts.\n\n- This news is developing as of Thursday morning, so the death toll and rescue details may still be unfolding.\n\nPlease let me know if I have accurately summarized the key information or if you would like me to expand on any part of it." }] }

Données de sortie résultant de tâches d’évaluation de modèle faisant appel à des travailleurs humains

Lorsqu’une tâche d’évaluation de modèle se termine, voici les paramètres que vous voyez dans les données de sortie renvoyées par les tâches de vérification humaine.

Paramètre Type de valeur Exemple de valeurs Description
flowDefinitionArn

Chaîne

arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name

Amazon Resource Number (ARN) du flux de vérification humaine (définition de flux) utilisé pour créer la boucle humaine.

humanAnswers

Liste d’objets JSON

"answerContent": { "evaluationResults": { "thumbsUpDown": [{ "metricName": "Relevance", "modelResponseId": "0", "result": false }] } }

Liste d’objets JSON qui contiennent des réponses d’employé dans answerContent.

humanLoopName

Chaîne system-generated-hash Chaîne hexadécimale de 40 caractères générée par le système.
inputRecord Objet JSON
"inputRecord": { "prompt": "What does vitamin C serum do for skin?", "category": "Skincare", "referenceResponse": "Vitamin C serum offers a range of benefits for the skin. Firstly, it acts.... }
Objet JSON contenant une requête en entrée issue du jeu de données d’entrée.
modelResponses Liste d’objets JSON
"modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/model-id", "response": "the-models-response-to-the-prompt" }]
Réponses individuelles des modèles.
inputContent

Objet

{ "additionalDataS3Uri":"s3://user-specified-S3-URI-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json", "evaluationMetrics":[ { "description":"testing", "metricName":"IndividualLikertScale", "ratingMethod":"IndividualLikertScale" } ], "instructions":"example instructions" }

Le contenu d'entrée de la boucle humaine requis pour démarrer la boucle humaine dans votre compartiment S3.

modelResponseIdMap

Objet

{ "0":"arn:aws:bedrock:us-west-2::foundation-model/model-id" }

humanAnswers.answerContent.evaluationResultscontient modelResponseId s. modelResponseIdMapConnecte le modelResponseId au nom du modèle.

Voici un exemple de données de sortie résultant d’une tâche d’évaluation de modèle.

{ "humanEvaluationResult": [{ "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "humanAnswers": [{ "acceptanceTime": "2023-11-09T19:17:43.107Z", "answerContent": { "evaluationResults": { "thumbsUpDown": [{ "metricName": "Coherence", "modelResponseId": "0", "result": false }, { "metricName": "Accuracy", "modelResponseId": "0", "result": true }], "individualLikertScale": [{ "metricName": "Toxicity", "modelResponseId": "0", "result": 1 }] } }, "submissionTime": "2023-11-09T19:17:52.101Z", "timeSpentInSeconds": 8.994, "workerId": "444455556666", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.Région AWS.amazonaws.com/Région AWS_111222", "sub": "c6aa8eb7-9944-42e9-a6b9-" } } }], ...Additional response have been truncated for clarity... }], "humanLoopName": "b3b1c64a2166e001e094123456789012", "inputContent":{ "additionalDataS3Uri":"s3://user-specified-S3-output-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json", "evaluationMetrics":[ { "description":"testing", "metricName":"IndividualLikertScale", "ratingMethod":"IndividualLikertScale" } ], "instructions":"some dummy instructions" }, "modelResponseIdMap":{ "0":"arn:aws:bedrock:Région AWS::foundation-model/model-id" } }, "inputRecord": { "category": "Fitness", "prompt": "Human: What is High-Intensity Interval Training ? \\n\\nAssistant:", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods. In HIIT, you perform exercises at near-maximum effort during the high-intensity intervals, which can include activities like sprinting, cycling, jumping, or body weight exercises such as burpees or push-ups. These intense intervals are interspersed with short recovery periods to lower your heart rate before the next high-intensity bout. HIIT workouts usually consist of multiple cycles of these intervals, and the number of cycles and the length of intervals can vary. HIIT is known for its time efficiency, making it an excellent choice for those with busy schedules. It offers both aerobic and anaerobic benefits, improving cardiovascular fitness, burning calories, and promoting fat loss, all while boosting metabolism for continued calorie burning post-workout." }, "modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:Région AWS::foundation-model/model-id", "response": " High-intensity interval training (HIIT) is a form of exercise that involves short bursts of intense activity alternated with recovery periods. Here are some key features of HIIT:\n\n- Alternates short periods of intense anaerobic exercise with less intense recovery periods. The high-intensity periods are typically done at 80-95% of maximum heart rate.\n\n- The duration of the intense periods can range from 5 seconds to 8 minutes, but typically are in the range of 30 seconds to 4 minutes.\n\n- The total HIIT session typically lasts between 10-30 minutes, including warm-up, recovery periods, and cool down. \n\n- Uses exercises like sprints, cycling, rowing, jumping rope, stair climbing, swimming, etc. Movements that get your heart rate up quickly.\n\n- The short, intense intervals help improve cardiovascular fitness by increasing heart rate and oxygen consumption.\n\n- HIIT burns more calories and fat than steady-state cardio in a shorter time period. It also helps build muscle strength and endurance.\n\n- Considered an efficient and effective form of exercise for fat loss and improving aerobic power. But it requires motivation to push yourself during the intense intervals.\n\n- Not suitable for beginners due to the high-intensity. Start with steady-state cardio and build up endurance before trying HIIT.\n\nIn summary, HIIT intersperses intense bursts of" }] } }

Le tableau suivant explique comment la méthode d’évaluation que vous avez sélectionnée pour chaque métrique dans la console Amazon Bedrock est renvoyée dans votre compartiment Amazon S3. La première clé enfant située en dessous de evaluationResults est ce que renvoie la méthode d’évaluation.

Enregistrement des méthodes d’évaluation sélectionnées dans la console Amazon Bedrock dans Amazon S3
Méthode d’évaluation sélectionnée Enregistré dans Amazon S3
Échelle de Likert – Individuelle IndividualLikertScale
Échelle de Likert – Comparaison ComparisonLikertScale
Boutons de sélection ComparisonChoice
Classement ordinal ComparisonRank
Pouce vers le haut/vers le bas ThumbsUpDown