Ausgabedaten (automatisiert)Ausgabedaten (Mitarbeiter)

Erfahren Sie, wie die Ergebnisse Ihres Auftrags zur Modellbewertung in Amazon S3 gespeichert werden

Die Ausgabe eines Auftrags zur Modellbewertung wird im Amazon-S3-Bucket gespeichert, den Sie bei der Erstellung des Auftrags zur Modellbewertung angegeben haben. Die Ergebnisse von Aufträgen zur Modellbewertung werden als JSON-Zeilendateien (.jsonl) gespeichert.

Die Ergebnisse des Auftrags zur Modellbewertung werden in dem S3-Bucket gespeichert, den Sie wie folgt angegeben haben.

Für Aufträge zur Modellbewertung, bei denen Mitarbeiter eingesetzt werden:

s3://user-specified-S3-output-path/job-name/job-uuid/datasets/dataset-name/file-uuid_output.jsonl
Für Aufträge zur automatischen Modellbewertung:

s3://user-specified-S3-output-path/job-name/job-uuid/models/model-id/taskTypes/task-type/datasets/dataset/file-uuid_output.jsonl

In den folgenden Themen wird beschrieben, wie die Ergebnisse einer automatisierten und von Mitarbeitern durchgeführten Modellbewertung in Amazon S3 gespeichert werden.

Ausgabedaten aus automatisierten Aufträgen zur Modellbewertung

Die Ergebnisse des automatisierten Bewertungsauftrags werden im datasets-Verzeichnis gespeichert, wenn der Auftragsstatus zu Abgeschlossen wechselt.

Für jede Metrik und den entsprechenden Prompt-Datensatz, den Sie bei der Erstellung des Auftrags zur Modellbewertung ausgewählt haben, wird eine JSON-Zeilendatei im datasets-Verzeichnis generiert. Die Datei verwendet die folgende Namenskonvention: metric_input-dataset.jsonl.

Jedes Ergebnis des Auftrags zur Modellbewertung beginnt mit dem Schlüssel automatedEvaluationResult. Der erste untergeordnete Schlüssel scores enthält die Metriken, die Sie in der Amazon-Bedrock-Konsole ausgewählt haben. In diesem Beispiel wurde nur eine einzige Metrik Accuracy ausgewählt. Es enthält auch result, wobei es sich um den berechneten Wert für die ausgewählte Metrik handelt. Weitere Informationen darüber, welcher spezifische Wert berechnet wird, finden Sie unter Bericht über automatisierte Aufträge zur Modellbewertung (Konsole).

Der zweite Schlüssel inputRecord ist eine Kopie dessen, was Sie in Ihrem Eingabe-Prompt-Datensatz angegeben haben.

Der dritte Schlüssel modelResponses enthält eine Liste von JSON-Objekten, die den ARN des Modells enthält, das Sie bei der Erstellung des Auftrags zur Modellbewertung ausgewählt haben. Es enthält auch die vollständige Antwort des Modells basierend auf der bereitgestellten Eingabeaufforderung.

Im Folgenden finden Sie eine Beispielausgabe für den Aufgabentyp Textzusammenfassung mit nur einer ausgewählten Metrik, und zwar Genauigkeit.


{
    "automatedEvaluationResult": {
        "scores": [{
            "metricName": "Accuracy",
            "result": 0.31920555233955383
        }]
    },
    "inputRecord": {
        "prompt": "Human: two bodies have been recovered from a flooded coal mine in yiyang city , central china 's henan province , as of #:## thursday morning , rescuers said . Assistant:",
        "referenceResponse": "two bodies recovered from flooded coal mine in c. china"
    },
    "modelResponses": [{
        "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-v2",
        "response": " Here are the key points I gathered from your news summary:\n\n- Two bodies have been recovered from a flooded coal mine in Yiyang City, in China's Henan province.\n\n- This happened as of Thursday morning, according to rescuers.\n\n- The location is central China's Henan province. \n\n- Yiyang City is where the flooded coal mine is located.\n\n- The coal mine was flooded, leading to the two deaths and need for rescue/recovery efforts.\n\n- This news is developing as of Thursday morning, so the death toll and rescue details may still be unfolding.\n\nPlease let me know if I have accurately summarized the key information or if you would like me to expand on any part of it."
    }]
}

Ausgabedaten aus Aufträgen zur Modellbewertung, bei denen Mitarbeiter eingesetzt werden.

Wenn ein Auftrag zur Modellbewertung abgeschlossen ist, werden die folgenden Parameter in den Ausgabedaten angezeigt, die von menschlichen Überprüfungsaufgaben zurückgegeben werden.

Parameter	Wert-Typ	Beispielwerte	Beschreibung
`flowDefinitionArn`	String	`arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name`	Der Amazon-Ressourcenname (ARN) des Worker-Review-Workflows (Worker-Definition), der zum Erstellen des Worker-Workflows verwendet wurde.
`humanAnswers`	Liste der JSON-Objekte	`"answerContent": { "evaluationResults": { "thumbsUpDown": [{ "metricName": "Relevance", "modelResponseId": "0", "result": false }] } }`	Eine Liste von JSON-Objekten, die Antworten von Mitarbeitern in `answerContent` enthalten.
`humanLoopName`	String	`system-generated-hash`	Eine systemseitig generierte Hexadezimalzeichenfolge mit 40 Zeichen.
`inputRecord`	JSON-Objekt	`"inputRecord": { "prompt": "What does vitamin C serum do for skin?", "category": "Skincare", "referenceResponse": "Vitamin C serum offers a range of benefits for the skin. Firstly, it acts.... }`	Ein JSON-Objekt, das eine Eingabeaufforderung aus dem Eingabedatensatz enthält.
`modelResponses`	Liste der JSON-Objekte	`"modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/model-id", "response": "the-models-response-to-the-prompt" }]`	Die einzelnen Antworten der Modelle.
`inputContent`	Object	`{ "additionalDataS3Uri":"s3://user-specified-S3-URI-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json", "evaluationMetrics":[ { "description":"testing", "metricName":"IndividualLikertScale", "ratingMethod":"IndividualLikertScale" } ], "instructions":"example instructions" }`	Der Human-Loop-Eingabeinhalt, der erforderlich ist, um Human Loop in Ihrem S3-Bucket zu starten.
`modelResponseIdMap`	Object	`{ "0":"arn:aws:bedrock:us-west-2::foundation-model/model-id" }`	`humanAnswers.answerContent.evaluationResults`enthält `modelResponseId` s. Das `modelResponseIdMap` verbindet `modelResponseId` den mit dem Modellnamen.

Es folgt ein Beispiel für Ausgabedaten aus einem Auftrag zur Modellbewertung.


{
    "humanEvaluationResult": [{
        "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name",
        "humanAnswers": [{
            "acceptanceTime": "2023-11-09T19:17:43.107Z",
            "answerContent": {
                "evaluationResults": {
                    "thumbsUpDown": [{
                        "metricName": "Coherence",
                        "modelResponseId": "0",
                        "result": false
                    }, {
                        "metricName": "Accuracy",
                        "modelResponseId": "0",
                        "result": true
                    }],
                    "individualLikertScale": [{
                        "metricName": "Toxicity",
                        "modelResponseId": "0",
                        "result": 1
                    }]
                }
            },
            "submissionTime": "2023-11-09T19:17:52.101Z",
            "timeSpentInSeconds": 8.994,
            "workerId": "444455556666",
            "workerMetadata": {
                "identityData": {
                    "identityProviderType": "Cognito",
                    "issuer": "https://cognito-idp.AWS-Region.amazonaws.com/AWS-Region_111222",
                    "sub": "c6aa8eb7-9944-42e9-a6b9-"
                }
            }
        }],
   
       
					
					...Additional response have been truncated for clarity...

      }],
      
     "humanLoopName": "b3b1c64a2166e001e094123456789012",
     "inputContent":{
         "additionalDataS3Uri":"s3://user-specified-S3-output-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json",
         "evaluationMetrics":[
            {
               "description":"testing",
               "metricName":"IndividualLikertScale",
               "ratingMethod":"IndividualLikertScale"
            }
         ],
         "instructions":"some dummy instructions"
      },
      "modelResponseIdMap":{
         "0":"arn:aws:bedrock:AWS-Region::foundation-model/model-id"
      }
    },
	"inputRecord": {
        "category": "Fitness",
        "prompt": "Human: What is High-Intensity Interval Training ? \\n\\nAssistant:",
        "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods. In HIIT, you perform exercises at near-maximum effort during the high-intensity intervals, which can include activities like sprinting, cycling, jumping, or body weight exercises such as burpees or push-ups. These intense intervals are interspersed with short recovery periods to lower your heart rate before the next high-intensity bout. HIIT workouts usually consist of multiple cycles of these intervals, and the number of cycles and the length of intervals can vary. HIIT is known for its time efficiency, making it an excellent choice for those with busy schedules. It offers both aerobic and anaerobic benefits, improving cardiovascular fitness, burning calories, and promoting fat loss, all while boosting metabolism for continued calorie burning post-workout."
    },
    "modelResponses": [{
        "modelIdentifier": "arn:aws:bedrock:AWS-Region::foundation-model/model-id",
        "response": " High-intensity interval training (HIIT) is a form of exercise that involves short bursts of intense activity alternated with recovery periods. Here are some key features of HIIT:\n\n- Alternates short periods of intense anaerobic exercise with less intense recovery periods. The high-intensity periods are typically done at 80-95% of maximum heart rate.\n\n- The duration of the intense periods can range from 5 seconds to 8 minutes, but typically are in the range of 30 seconds to 4 minutes.\n\n- The total HIIT session typically lasts between 10-30 minutes, including warm-up, recovery periods, and cool down. \n\n- Uses exercises like sprints, cycling, rowing, jumping rope, stair climbing, swimming, etc. Movements that get your heart rate up quickly.\n\n- The short, intense intervals help improve cardiovascular fitness by increasing heart rate and oxygen consumption.\n\n- HIIT burns more calories and fat than steady-state cardio in a shorter time period. It also helps build muscle strength and endurance.\n\n- Considered an efficient and effective form of exercise for fat loss and improving aerobic power. But it requires motivation to push yourself during the intense intervals.\n\n- Not suitable for beginners due to the high-intensity. Start with steady-state cardio and build up endurance before trying HIIT.\n\nIn summary, HIIT intersperses intense bursts of"
    }]
}

    
}

In der folgenden Tabelle wird erklärt, wie die Bewertungsmethode, die Sie für jede Metrik in der Amazon-Bedrock-Konsole ausgewählt haben, in Ihrem Amazon-S3-Bucket zurückgegeben wird. Unter dem ersten untergeordneten Schlüssel evaluationResults wird die gewählte Bewertungsmethode zurückgegeben.

Speichern von in der Amazon-Bedrock-Konsole ausgewählten Bewertungsmethoden in Amazon S3
Ausgewählte Bewertungsmethode	In Amazon S3 gespeichert
Likert-Skala – Individuell	`IndividualLikertScale`
Likert-Skala – Vergleich	`ComparisonLikertScale`
Auswahltasten	`ComparisonChoice`
Ordinaler Rang	`ComparisonRank`
Daumen hoch/runter	`ThumbsUpDown`

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Mitarbeiterberichte

Erforderliche Berechtigungen