Verfügbare Benchmark-Aufgaben Die Rezepturparameter verstehen Beispiele für Bewertungsrezepte Starten Sie einen Evaluierungsjob Rufen Sie Ihre Ergebnisse auf und visualisieren Sie sie

Evaluieren Sie Ihr trainiertes Modell

Ein Bewertungsrezept ist eine YAML-Konfigurationsdatei, die definiert, wie Ihr Amazon Nova-Modellevaluierungsjob ausgeführt wird. Mit diesem Rezept können Sie die Leistung eines Basismodells oder eines trainierten Modells anhand gängiger Benchmarks oder Ihrer eigenen benutzerdefinierten Datensätze bewerten. Metriken können in Amazon S3 oder gespeichert werden TensorBoard. Die Bewertung bietet quantitative Kennzahlen, anhand derer Sie die Modellleistung bei verschiedenen Aufgaben beurteilen können, um festzustellen, ob weitere Anpassungen erforderlich sind.

Die Modellevaluierung ist ein Offline-Prozess, bei dem Modelle anhand festgelegter Benchmarks mit vordefinierten Antworten getestet werden. Sie werden nicht in Echtzeit oder anhand von Live-Benutzerinteraktionen bewertet. Für Evaluierungen in Echtzeit können Sie das Modell nach der Bereitstellung in Amazon Bedrock auswerten, indem Sie die Amazon Bedrock-Laufzeit aufrufen. APIs

Themen

Verfügbare Benchmark-Aufgaben
Die Rezepturparameter verstehen
Beispiele für Bewertungsrezepte
Starten Sie einen Evaluierungsjob
Rufen Sie Ihre Ergebnisse auf und visualisieren Sie sie

Verfügbare Benchmark-Aufgaben

Es ist ein Beispielcodepaket verfügbar, das zeigt, wie Benchmark-Metriken mithilfe der SageMaker KI-Modellbewertungsfunktion für Amazon Nova berechnet werden. Informationen zum Zugriff auf die Codepakete finden Sie unter Sample-n ova-lighteval-custom-task.

Hier ist eine Liste der unterstützten, verfügbaren Industriestandard-Benchmarks. Sie können die folgenden Benchmarks im Parameter angeben: eval_task

Benchmark	Modalität	Beschreibung	Metriken	Strategie	Unteraufgabe verfügbar
mmlu	Text	Sprachverständnis für mehrere Aufgaben — Testet Wissen in 57 Fächern.	Richtigkeit	zs_cot	Ja
mmlu_pro	Text	MMLU — Professional Subset — Konzentriert sich auf Fachbereiche wie Recht, Medizin, Rechnungswesen und Ingenieurwesen.	Richtigkeit	zs_cot	Nein
bbh	Text	Aufgaben zum Denken für Fortgeschrittene — Eine Sammlung herausfordernder Probleme, die kognitive Fähigkeiten und Fähigkeiten zur Problemlösung auf höherem Niveau auf die Probe stellen.	Richtigkeit	zs_cot	Ja
gpqa	Text	Beantwortung allgemeiner Fragen zur Physik — Beurteilt das Verständnis physikalischer Konzepte und die damit verbundenen Fähigkeiten zur Problemlösung.	Richtigkeit	zs_cot	Nein
math	Text	Mathematische Problemlösung — Misst mathematisches Denken in verschiedenen Themenbereichen wie Algebra, Infinitesimalrechnung und Textaufgaben.	exact_match	zs_cot	Ja
strong_ablehnen	Text	Aufgabe zur Qualitätskontrolle — Testet die Fähigkeit des Modells, unangemessene, schädliche oder falsche Inhalte zu erkennen und abzulehnen.	Durchbiegung	zs	Ja
IFEval	Text	Bewertung nach Anweisung — Prüft, wie genau ein Modell die Anweisungen befolgt und Aufgaben gemäß den Spezifikationen ausführt.	Richtigkeit	zs	Nein
gen_qa	Text	Auswertung benutzerdefinierter Datensätze — Ermöglicht es Ihnen, Ihren eigenen Datensatz für das Benchmarking zu verwenden und Modellergebnisse mit Referenzantworten anhand von Metriken wie ROUGE und BLEU zu vergleichen.	all	gen_qa	Nein
mmmu	Multimodal	Massive Multidiscipline Multimodal Understanding (MMMU) — Benchmark auf Hochschulebene, bestehend aus Multiple-Choice-Fragen und offenen Fragen aus 30 Disziplinen.	Richtigkeit	zs_cot	Ja
llm_judge	Text	LLM-as-a-Judge Präferenzvergleich — Verwendet ein Nova Judge-Modell, um die Präferenz zwischen Antwortpaaren (B im Vergleich zu A) für Ihre Eingabeaufforderungen zu ermitteln. Dabei wird die Wahrscheinlichkeit berechnet, dass B gegenüber A bevorzugt wird.	all	Richter	Nein
menschlich	Text	HumanEval - Ein Benchmark-Datensatz zur Bewertung der Fähigkeiten zur Codegenerierung großer Sprachmodelle	übergebe @1	zs	Nein

Die folgenden mmlu Unteraufgaben sind verfügbar:


MMLU_SUBTASKS = [
    "abstract_algebra",
    "anatomy",
    "astronomy",
    "business_ethics",
    "clinical_knowledge",
    "college_biology",
    "college_chemistry",
    "college_computer_science",
    "college_mathematics",
    "college_medicine",
    "college_physics",
    "computer_security",
    "conceptual_physics",
    "econometrics",
    "electrical_engineering",
    "elementary_mathematics",
    "formal_logic",
    "global_facts",
    "high_school_biology",
    "high_school_chemistry",
    "high_school_computer_science",
    "high_school_european_history",
    "high_school_geography",
    "high_school_government_and_politics",
    "high_school_macroeconomics",
    "high_school_mathematics",
    "high_school_microeconomics",
    "high_school_physics",
    "high_school_psychology",
    "high_school_statistics",
    "high_school_us_history",
    "high_school_world_history",
    "human_aging",
    "human_sexuality",
    "international_law",
    "jurisprudence",
    "logical_fallacies",
    "machine_learning",
    "management",
    "marketing",
    "medical_genetics",
    "miscellaneous",
    "moral_disputes",
    "moral_scenarios",
    "nutrition",
    "philosophy",
    "prehistory",
    "professional_accounting",
    "professional_law",
    "professional_medicine",
    "professional_psychology",
    "public_relations",
    "security_studies",
    "sociology",
    "us_foreign_policy",
    "virology",
    "world_religions"
]

Die folgenden bbh Unteraufgaben sind verfügbar:


BBH_SUBTASKS = [
    "boolean_expressions",
    "causal_judgement",
    "date_understanding",
    "disambiguation_qa",
    "dyck_languages",
    "formal_fallacies",
    "geometric_shapes",
    "hyperbaton",
    "logical_deduction_five_objects",
    "logical_deduction_seven_objects",
    "logical_deduction_three_objects",
    "movie_recommendation",
    "multistep_arithmetic_two",
    "navigate",
    "object_counting",
    "penguins_in_a_table",
    "reasoning_about_colored_objects",
    "ruin_names",
    "salient_translation_error_detection",
    "snarks",
    "sports_understanding",
    "temporal_sequences",
    "tracking_shuffled_objects_five_objects",
    "tracking_shuffled_objects_seven_objects",
    "tracking_shuffled_objects_three_objects",
    "web_of_lies",
    "word_sorting"
]

Die folgenden math Unteraufgaben sind verfügbar:


MATH_SUBTASKS = [
    "algebra",
    "counting_and_probability",
    "geometry",
    "intermediate_algebra",
    "number_theory",
    "prealgebra",
    "precalculus",
]

Die Rezepturparameter verstehen

Konfiguration ausführen

Im Folgenden finden Sie eine allgemeine Laufkonfiguration und eine Erläuterung der beteiligten Parameter.


run:
  name: eval_job_name 
  model_type: amazon.nova-micro-v1:0:128k 
  model_name_or_path: nova-micro/prod 
  replicas: 1 
  data_s3_path: ""
  output_s3_path: s3://output_path

name: (Erforderlich) Ein beschreibender Name für Ihren Evaluierungsjob. Auf diese Weise können Sie Ihren Job in der AWS Konsole leichter identifizieren.
model_type: (Erforderlich) Gibt die zu verwendende Amazon Nova-Modellvariante an. Ändern Sie dieses Feld nicht manuell. Zu den Optionen gehören:
- amazon.nova-micro-v1:0:128k
- amazon.nova-lite-v1:0:300k
- amazon.nova-pro-v1:0:300k
model_name_or_path: (Erforderlich) Der Pfad zum Basismodell oder zum S3-Pfad für den Checkpoint nach dem Training. Zu den Optionen gehören:
- nova-micro/prod
- nova-lite/prod
- nova-pro/prod
- (S3-Pfad für den Checkpoint nach dem Training) s3://<escrow bucket>/<job id>/outputs/checkpoints
replicas: (Erforderlich) Die Anzahl der Recheninstanzen, die für verteilte Schulungen verwendet werden sollen. Sie müssen diesen Wert auf 1 setzen, da mehrere Knoten nicht unterstützt werden.
data_s3_path: (Erforderlich) Der S3-Pfad zum Eingabe-Datensatz. Lassen Sie diesen Parameter leer, es sei denn, Sie verwenden das Rezept „Bring Your Own Dataset“ oder „LLM“ als Richterrezept.
output_s3_path: (Erforderlich) Der S3-Pfad zum Speichern von Artefakten aus der Ausgabeauswertung. Beachten Sie, dass der S3-Ausgabe-Bucket von demselben Konto erstellt werden muss, das den Job erstellt.

Konfiguration der Evaluierung

Im Folgenden finden Sie eine Konfiguration für die Modellevaluierung und eine Erläuterung der beteiligten Parameter.


evaluation:
  task: mmlu 
  strategy: zs_cot 
  subtask: mathematics
  metric: accuracy

task: (Erforderlich) Gibt den Bewertungs-Benchmark oder die zu verwendende Aufgabe an.

Liste der unterstützten Aufgaben:
- mmlu
- mmlu_pro
- bbh
- gpqa
- math
- strong_ablehnen
- gen_qa
- vergänglich
- mmmu
- llm_judge
- menschliches Alter
strategy: (Erforderlich) Definiert den Bewertungsansatz:
- zs_cot: Zero-shot Chain-of-Thought — Ein Ansatz zur Entwicklung umfangreicher Sprachmodelle, der zum Nachdenken anregt, ohne dass explizite Beispiele step-by-step erforderlich sind.
- zs: Zero-shot — Ein Ansatz zur Lösung eines Problems ohne vorherige Schulungsbeispiele.
- gen_qa: Eine Strategie, die speziell für Rezepte zum Mitbringen eigener Datensätze entwickelt wurde.
- Richter: Eine spezielle Strategie für Amazon Nova LLM als Judge-Rezepte.
subtask: (Optional und entfernbar) Spezifiziert eine spezifische Unteraufgabe für bestimmte Bewertungsaufgaben. Entfernen Sie dies aus Ihrem Rezept, wenn Ihre Aufgabe keine Unteraufgaben hat.
metric: (Erforderlich) Die zu verwendende Bewertungsmetrik.
- Genauigkeit: Prozentsatz der richtigen Antworten
- exact_match: (Für math Benchmark), gibt die Rate zurück, mit der die eingegebenen vorhergesagten Zeichenketten exakt mit ihren Referenzen übereinstimmen.
- Durchbiegung: (für strong reject Benchmark) gibt die relative Abweichung zum Basismodell und die Differenz der Signifikanzmetriken zurück.
- pass @1: (Für humaneval Benchmark) ist eine Metrik, die verwendet wird, um den Prozentsatz der Fälle zu messen, in denen die Vorhersage des Modells mit der höchsten Konfidenz mit der richtigen Antwort übereinstimmt.
- all: Gibt die folgenden Metriken zurück:
  - Geben Sie für gen_qa Ihren eigenen Datensatz-Benchmark die folgenden Metriken zurück:
    
    rouge1: Misst die Überlappung von Unigrammen (einzelnen Wörtern) zwischen generiertem Text und Referenztext.
    
    rouge2: Misst die Überlappung von Bigrammen (zwei aufeinanderfolgende Wörter) zwischen generiertem Text und Referenztext.
    
    rougeL: Misst die längste gemeinsame Teilsequenz zwischen Texten und berücksichtigt Lücken beim Abgleich.
    
    exact_match: Binärer Wert (0 oder 1), der angibt, ob der generierte Text Zeichen für Zeichen exakt mit dem Referenztext übereinstimmt.
    
    quasi_exact_match: Ähnlich wie Exact Match, aber milder, wobei in der Regel Unterschiede zwischen Groß- und Kleinschreibung, Interpunktion und Leerraum ignoriert werden.
    
    f1_score: Harmonisches Mittel aus Genauigkeit und Erinnerungsvermögen, wobei die Wortüberschneidung zwischen vorhergesagten Antworten und Referenzantworten gemessen wird.
    
    f1_score_quasi: Ähnlich wie f1_score, jedoch mit milderem Abgleich, wobei ein normalisierter Textvergleich verwendet wird, bei dem geringfügige Unterschiede ignoriert werden.
    
    bleu: Misst die Genauigkeit von N-Gramm-Übereinstimmungen zwischen generiertem Text und Referenztext, was häufig bei der Bewertung von Übersetzungen verwendet wird.
  - Geben Sie für llm_judge Ihren eigenen Datensatz-Benchmark die folgenden Messwerte zurück:
    
    a_scores: Anzahl der Siege bei response_A allen Bewertungsdurchläufen mit Vorwärts- und Rückwärtsdurchgängen.
    
    a_scores_stderr: Standardfehler bei response_A scores paarweisen Beurteilungen.
    
    b_scores: Anzahl der Siege bei der Bewertung response_B nach vorn und hinten.
    
    b_scores_stderr: Standardfehler bei response_B scores paarweisen Beurteilungen.
    
    ties: Anzahl der Urteile, bei denen response_A und als gleich bewertet response_B wurden.
    
    ties_stderr: Standardfehler bei Gleichheit bei paarweisen Urteilen.
    
    inference_error: Anzahl der Urteile, die nicht richtig bewertet werden konnten.
    
    inference_error_stderr: Standardfehler bei den Folgerungen aller Urteile.
    
    score: Die Gesamtpunktzahl basiert auf Siegen aus Vorwärts- und Rückwärtspässen für. response_B
    
    score_stderr: Standardfehler der Gesamtpunktzahl bei paarweisen Urteilen.
    
    winrate: Die Wahrscheinlichkeit, dass Antworte_B der Antworte_A vorgezogen wird, berechnet anhand der Bradley-Terry-Wahrscheinlichkeit.
    
    lower_rate: Untergrenze (2,5 Perzentil) der geschätzten Gewinnrate aus dem Bootstrap-Sampling.

Konfiguration der Inferenz

Im Folgenden finden Sie eine Inferenzkonfiguration und eine Erläuterung der beteiligten Parameter. Alle Parameter sind optional.


inference:
  max_new_tokens: 200 
  top_k: -1 
  top_p: 1.0 
  temperature: 0

max_new_tokens: Die maximale Anzahl der zu generierenden Token. Dies muss eine Ganzzahl sein.
top_k: Die Anzahl der zu berücksichtigenden Tokens mit der höchsten Wahrscheinlichkeit. Dies muss eine Ganzzahl sein.
top_p: Der kumulative Wahrscheinlichkeitsschwellenwert für Token-Sampling. Dabei muss es sich um eine Gleitkommazahl zwischen 0,0 und 1,0 (einschließlich) handeln.
temperature: Zufälligkeit bei der Token-Auswahl. Größere Werte führen zu mehr Zufälligkeit. Verwenden Sie 0, um die Ergebnisse deterministisch zu machen. Bei diesem Wert muss es sich um eine Gleitkommazahl mit einem Mindestwert von 0 handeln.

Beachten Siehumaneval, dass wir für die folgende Inferenzkonfiguration empfehlen:


inference:
  top_k: 1
  max_new_tokens: 1600
  temperature: 0.0

Beispiele für Bewertungsrezepte

Amazon Nova bietet vier Arten von Bewertungsrezepten, die im HyperPod GitHub Rezepte-Repository verfügbar sind.

Allgemeine Text-Benchmark-Rezepte

Diese Rezepte ermöglichen es Ihnen, die grundlegenden Funktionen von Amazon Nova-Modellen anhand einer umfassenden Suite von reinen Textbenchmarks zu bewerten. Sie werden im folgenden Format bereitgestellt. xxx_general_text_benchmark_eval.yaml

Allgemeines multimodales Benchmark-Rezept

Diese Rezepte ermöglichen es Ihnen, die grundlegenden Funktionen von Amazon Nova-Modellen anhand einer umfassenden Reihe von Multimodalitäts-Benchmarks zu bewerten. Sie werden im folgenden Format bereitgestellt. xxx_general_multi_modal_benchmark_eval.yaml

Bringen Sie Ihr eigenes Benchmark-Rezept für Datensätze mit

Diese Rezepte ermöglichen es Ihnen, Ihren eigenen Datensatz für das Benchmarking mitzubringen und die Modellergebnisse anhand verschiedener Arten von Metriken mit Referenzantworten zu vergleichen. Sie werden im folgenden Format xxx_bring_your_own_dataset_eval.yaml bereitgestellt.

Im Folgenden sind die Anforderungen für das Mitbringen Ihres eigenen Datensatzes aufgeführt:

Anforderungen an das Dateiformat
- Sie müssen eine einzige gen_qa.jsonl Datei mit Bewertungsbeispielen beifügen.
- Ihr Datensatz muss an einen S3-Standort hochgeladen werden, an dem der SageMaker KI-Schulungsjob darauf zugreifen kann.
- Die Datei muss dem erforderlichen Schemaformat für einen allgemeinen Q&A-Datensatz entsprechen.
Anforderungen an das Schemaformat — Jede Zeile in der JSONL-Datei muss ein JSON-Objekt mit den folgenden Feldern sein:
- query: (Erforderlich) Zeichenfolge, die die Frage oder Anweisung enthält, für die eine Antwort erforderlich ist
- response: (Erforderlich) Zeichenfolge, die die erwartete Modellausgabe enthält
- system: (Optional) Zeichenfolge, die die Systemaufforderung enthält, die das Verhalten, die Rolle oder die Persönlichkeit des KI-Modells festlegt, bevor es die Abfrage verarbeitet

Hier ist ein Beispieleintrag zum Mitbringen eines eigenen Datensatzes


{
   "system":"You are a english major with top marks in class who likes to give minimal word responses: ",
   "query":"What is the symbol that ends the sentence as a question",
   "response":"?"
}
{
   "system":"You are a pattern analysis specialist that provides succinct answers: ",
   "query":"What is the next number in this series? 1, 2, 4, 8, 16, ?",
   "response":"32"
}
{
   "system":"You have great attention to detail that follows instructions accurately: ",
   "query":"Repeat only the last two words of the following: I ate a hamburger today and it was kind of dry",
   "response":"of dry"
}

Um Ihren benutzerdefinierten Datensatz zu verwenden, ändern Sie Ihr Bewertungsrezept mit den folgenden Pflichtfeldern und ändern Sie nichts am Inhalt:


evaluation:
  task: gen_qa 
  strategy: gen_qa 
  metric: all

Die folgenden Einschränkungen gelten:

Pro Auswertung ist nur eine JSONL-Datei zulässig.
Die Datei muss strikt dem definierten Schema folgen.
Begrenzung der Kontextlänge: Für jede Stichprobe im Datensatz sollte die Kontextlänge (einschließlich System- und Abfrageaufforderungen) weniger als 3,5 KB betragen

Amazon Nova LLM als Benchmark-Rezept für Richter

Amazon Nova LLM as a Judge ist eine Modellevaluierungsfunktion, mit der Kunden die Qualität der Antworten eines Modells mit einer Antwort aus einem Basismodell anhand eines benutzerdefinierten Datensatzes vergleichen können. Es verwendet einen Datensatz mit Eingabeaufforderungen, Basisantworten und Antworten von Herausforderern und verwendet ein Nova Judge-Modell, um eine auf der Bradley-Terry-Wahrscheinlichkeit basierende Winrate-Metrik mit paarweisen Vergleichen bereitzustellen.

Die Rezepte werden im folgenden Format bereitgestellt. xxx_llm_judge_eval.yaml

Im Folgenden sind die Anforderungen für LLM als Richter aufgeführt:

Anforderungen an das Dateiformat
- Fügen Sie eine einzige llm_judge.jsonl Datei mit Bewertungsbeispielen hinzu. Der Dateiname muss seinllm_judge.jsonl.
- Ihr Datensatz muss an einen S3-Speicherort hochgeladen werden, auf den SageMaker AI HyperPod RIG zugreifen kann.
- Die Datei muss dem für den llm_judge.jsonl Datensatz erforderlichen Schemaformat entsprechen.
- Der Eingabedatensatz sollte sicherstellen, dass alle Datensätze eine Kontextlänge von weniger als 12 KB haben.
Anforderungen an das Schemaformat — Jede Zeile in der JSONL-Datei muss ein JSON-Objekt mit den folgenden Feldern sein:
- prompt: (Erforderlich) Eine Zeichenfolge, die die Aufforderung für die generierte Antwort enthält.
- response_A: Eine Zeichenfolge, die die Basisantwort enthält.
- response_B: Eine Zeichenfolge, die die alternative Antwort enthält, wird mit der Ausgangsantwort verglichen.

Hier ist ein Beispieleintrag für einen LLM als Richter


{
"prompt": "What is the most effective way to combat climate change?",
"response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.",
"response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less."
}
{
"prompt": "Explain how a computer's CPU works",
"response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.",
"response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations."
}
{
"prompt": "How does photosynthesis work?",
"response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.",
"response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts."
}

Um Ihren benutzerdefinierten Datensatz zu verwenden, ändern Sie Ihr Bewertungsrezept mit den folgenden Pflichtfeldern, ändern Sie nichts am Inhalt:


evaluation:
  task: llm_judge
  strategy: judge
  metric: all

Die folgenden Einschränkungen gelten:

Pro Auswertung ist nur eine JSONL-Datei zulässig.
Die Datei muss strikt dem definierten Schema folgen.
Die Modelle von Amazon Nova Judge sind für alle Spezifikationen der Modellfamilie (d. h. Lite, Micro und Pro) identisch.
Benutzerdefinierte Judge-Modelle werden derzeit nicht unterstützt.
Begrenzung der Kontextlänge: Für jede Stichprobe im Datensatz sollte die Kontextlänge (einschließlich System- und Abfrageaufforderungen) weniger als 7 KB betragen

Starten Sie einen Evaluierungsjob

Im Folgenden finden Sie einen Vorschlag für die Konfiguration des Testinstanztyps und des Modelltyps:


# Install Dependencies (Helm - https://helm.sh/docs/intro/install/)
curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3
chmod 700 get_helm.sh
./get_helm.sh
rm -f ./get_helm.sh  

# Install the HyperPod CLI
git clone --recurse-submodules https://github.com/aws/sagemaker-hyperpod-cli.git
git checkout -b release_v2
cd sagemaker-hyperpod-cli
pip install .

# Verify the installation
hyperpod --help

# Connect to a HyperPod Cluster
hyperpod connect-cluster --cluster-name cluster-name


# Submit the Job using the recipe for eval
# Namespace by default should be kubeflow
hyperpod start-job [--namespace namespace] --recipe evaluation/nova/nova_micro_p5_48xl_general_text_benchmark_eval --override-parameters \
'{
    "instance_type":"p5d.48xlarge",
    "container": "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-HP-Eval-latest",
    "recipes.run.name": custom-run-name,
    "recipes.run.model_type": model_type,
    "recipes.run.model_name_or_path" " model name or finetune checkpoint s3uri,
    "recipes.run.data_s3_path": s3 for input data only for genqa and llm_judge, must be full S3 path that include filename,
}'

# List jobs
hyperpod list-jobs [--namespace namespace] [--all-namespaces]

# Getting Job details
hyperpod get-job --job-name job-name [--namespace namespace] [--verbose]

# Listing Pods
hyperpod list-pods --job-name job-name --namespace namespace

# Cancel Job
hyperpod cancel-job --job-name job-name [--namespace namespace]

Sie sollten den Auftragsstatus auch über die Amazon EKS-Cluster-Konsole einsehen können.

Rufen Sie Ihre Ergebnisse auf und visualisieren Sie sie

Nachdem Ihre Bewertungsaufgabe erfolgreich abgeschlossen wurde, können Sie mithilfe der Informationen in diesem Abschnitt auf die Ergebnisse zugreifen und sie analysieren. Basierend auf den output_s3_path (wies3://output_path/) im Rezept definierten Werten sieht die Ausgabestruktur wie folgt aus:


job_name/
├── eval-result/
│    └── job-name/
│         └── results_[timestamp].json
│         └── details/
│              └── model/
│                  └── execution-date-time/
│                             └──details_task_name_#_datetime.parquet
└── eval-tensorboard-result/
    └── job-name/
        └── eval/
            └── events.out.tfevents.[timestamp]

Die Ergebnisse der Metriken werden am angegebenen S3-Ausgabespeicherort gespeichert s3://output_path/job_name/eval-result/result-timestamp.json

Tensorboard-Ergebnisse werden im S3-Pfad gespeichert. s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip

Die Inferenzausgaben, mit Ausnahme von strong_reject undgen_qa, werden im S3-Pfad gespeichert. s3://output_path/job_name/eval-result/details/model/taskname.parquet

Gehen Sie wie folgt vor, um Ihre Bewertungskennzahlen in Tensorboard zu visualisieren:

Navigieren Sie zu SageMaker AI Tensorboard.
Wählen Sie S3-Ordner aus.
Fügen Sie beispielsweise Ihren S3-Ordnerpfad hinzus3://output_path/job-name/eval-tensorboard-result/eval.
Warten Sie, bis die Synchronisation abgeschlossen ist.

Die Zeitreihen, Skalare und Textvisualisierungen sind verfügbar.

Wir empfehlen Ihnen, die folgenden bewährten Methoden:

Organisieren Sie Ihre Ausgabepfade nach Modell und Benchmark-Typ.
Halten Sie konsistente Namenskonventionen ein, um die Nachverfolgung zu vereinfachen.
Speichern Sie die extrahierten Ergebnisse an einem sicheren Ort.
Überwachen Sie den TensorBoard Synchronisierungsstatus, um sicherzustellen, dass Daten erfolgreich geladen wurden.

Sie finden HyperPod Auftragsfehlerprotokolle in der CloudWatch Protokollgruppe/aws/sagemaker/Clusters/cluster-id.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einen Trainingsjob mit der HyperPod CLI starten

Iteratives Training