Evaluieren Sie Ihr trainiertes Modell - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Evaluieren Sie Ihr trainiertes Modell

Ein Bewertungsrezept ist eine YAML-Konfigurationsdatei, die definiert, wie Ihr Amazon Nova-Modellevaluierungsjob ausgeführt wird. Mit diesem Rezept können Sie die Leistung eines Basismodells oder eines trainierten Modells anhand gängiger Benchmarks oder Ihrer eigenen benutzerdefinierten Datensätze bewerten. Metriken können in Amazon S3 oder gespeichert werden TensorBoard. Die Bewertung bietet quantitative Kennzahlen, anhand derer Sie die Modellleistung bei verschiedenen Aufgaben beurteilen können, um festzustellen, ob weitere Anpassungen erforderlich sind.

Die Modellevaluierung ist ein Offline-Prozess, bei dem Modelle anhand festgelegter Benchmarks mit vordefinierten Antworten getestet werden. Sie werden nicht in Echtzeit oder anhand von Live-Benutzerinteraktionen bewertet. Für Evaluierungen in Echtzeit können Sie das Modell nach der Bereitstellung in Amazon Bedrock auswerten, indem Sie die Amazon Bedrock-Laufzeit aufrufen. APIs

Verfügbare Benchmark-Aufgaben

Es ist ein Beispielcodepaket verfügbar, das zeigt, wie Benchmark-Metriken mithilfe der SageMaker KI-Modellbewertungsfunktion für Amazon Nova berechnet werden. Informationen zum Zugriff auf die Codepakete finden Sie unter Sample-n ova-lighteval-custom-task.

Hier ist eine Liste der unterstützten, verfügbaren Industriestandard-Benchmarks. Sie können die folgenden Benchmarks im Parameter angeben: eval_task

Benchmark

Modalität

Beschreibung

Metriken

Strategie

Unteraufgabe verfügbar

mmlu

Text

Sprachverständnis für mehrere Aufgaben — Testet Wissen in 57 Fächern.

Richtigkeit

zs_cot

Ja

mmlu_pro

Text

MMLU — Professional Subset — Konzentriert sich auf Fachbereiche wie Recht, Medizin, Rechnungswesen und Ingenieurwesen.

Richtigkeit

zs_cot

Nein

bbh

Text

Aufgaben zum Denken für Fortgeschrittene — Eine Sammlung herausfordernder Probleme, die kognitive Fähigkeiten und Fähigkeiten zur Problemlösung auf höherem Niveau auf die Probe stellen.

Richtigkeit

zs_cot

Ja

gpqa

Text

Beantwortung allgemeiner Fragen zur Physik — Beurteilt das Verständnis physikalischer Konzepte und die damit verbundenen Fähigkeiten zur Problemlösung.

Richtigkeit

zs_cot

Nein

math

Text

Mathematische Problemlösung — Misst mathematisches Denken in verschiedenen Themenbereichen wie Algebra, Infinitesimalrechnung und Textaufgaben.

exact_match

zs_cot

Ja

strong_ablehnen

Text

Aufgabe zur Qualitätskontrolle — Testet die Fähigkeit des Modells, unangemessene, schädliche oder falsche Inhalte zu erkennen und abzulehnen.

Durchbiegung

zs

Ja

IFEval

Text

Bewertung nach Anweisung — Prüft, wie genau ein Modell die Anweisungen befolgt und Aufgaben gemäß den Spezifikationen ausführt.

Richtigkeit

zs

Nein

gen_qa

Text

Auswertung benutzerdefinierter Datensätze — Ermöglicht es Ihnen, Ihren eigenen Datensatz für das Benchmarking zu verwenden und Modellergebnisse mit Referenzantworten anhand von Metriken wie ROUGE und BLEU zu vergleichen.

all

gen_qa

Nein

mmmu

Multimodal

Massive Multidiscipline Multimodal Understanding (MMMU) — Benchmark auf Hochschulebene, bestehend aus Multiple-Choice-Fragen und offenen Fragen aus 30 Disziplinen.

Richtigkeit

zs_cot

Ja

llm_judge

Text

LLM-as-a-Judge Präferenzvergleich — Verwendet ein Nova Judge-Modell, um die Präferenz zwischen Antwortpaaren (B im Vergleich zu A) für Ihre Eingabeaufforderungen zu ermitteln. Dabei wird die Wahrscheinlichkeit berechnet, dass B gegenüber A bevorzugt wird.

all

Richter

Nein

menschlich

Text

HumanEval - Ein Benchmark-Datensatz zur Bewertung der Fähigkeiten zur Codegenerierung großer Sprachmodelle

übergebe @1

zs

Nein

Die folgenden mmlu Unteraufgaben sind verfügbar:

MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]

Die folgenden bbh Unteraufgaben sind verfügbar:

BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]

Die folgenden math Unteraufgaben sind verfügbar:

MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]

Die Rezepturparameter verstehen

Konfiguration ausführen

Im Folgenden finden Sie eine allgemeine Laufkonfiguration und eine Erläuterung der beteiligten Parameter.

run: name: eval_job_name model_type: amazon.nova-micro-v1:0:128k model_name_or_path: nova-micro/prod replicas: 1 data_s3_path: "" output_s3_path: s3://output_path
  • name: (Erforderlich) Ein beschreibender Name für Ihren Evaluierungsjob. Auf diese Weise können Sie Ihren Job in der AWS Konsole leichter identifizieren.

  • model_type: (Erforderlich) Gibt die zu verwendende Amazon Nova-Modellvariante an. Ändern Sie dieses Feld nicht manuell. Zu den Optionen gehören:

    • amazon.nova-micro-v1:0:128k

    • amazon.nova-lite-v1:0:300k

    • amazon.nova-pro-v1:0:300k

  • model_name_or_path: (Erforderlich) Der Pfad zum Basismodell oder zum S3-Pfad für den Checkpoint nach dem Training. Zu den Optionen gehören:

    • nova-micro/prod

    • nova-lite/prod

    • nova-pro/prod

    • (S3-Pfad für den Checkpoint nach dem Training) s3://<escrow bucket>/<job id>/outputs/checkpoints

  • replicas: (Erforderlich) Die Anzahl der Recheninstanzen, die für verteilte Schulungen verwendet werden sollen. Sie müssen diesen Wert auf 1 setzen, da mehrere Knoten nicht unterstützt werden.

  • data_s3_path: (Erforderlich) Der S3-Pfad zum Eingabe-Datensatz. Lassen Sie diesen Parameter leer, es sei denn, Sie verwenden das Rezept „Bring Your Own Dataset“ oder „LLM“ als Richterrezept.

  • output_s3_path: (Erforderlich) Der S3-Pfad zum Speichern von Artefakten aus der Ausgabeauswertung. Beachten Sie, dass der S3-Ausgabe-Bucket von demselben Konto erstellt werden muss, das den Job erstellt.

Konfiguration der Evaluierung

Im Folgenden finden Sie eine Konfiguration für die Modellevaluierung und eine Erläuterung der beteiligten Parameter.

evaluation: task: mmlu strategy: zs_cot subtask: mathematics metric: accuracy
  • task: (Erforderlich) Gibt den Bewertungs-Benchmark oder die zu verwendende Aufgabe an.

    Liste der unterstützten Aufgaben:

    • mmlu

    • mmlu_pro

    • bbh

    • gpqa

    • math

    • strong_ablehnen

    • gen_qa

    • vergänglich

    • mmmu

    • llm_judge

    • menschliches Alter

  • strategy: (Erforderlich) Definiert den Bewertungsansatz:

    • zs_cot: Zero-shot Chain-of-Thought — Ein Ansatz zur Entwicklung umfangreicher Sprachmodelle, der zum Nachdenken anregt, ohne dass explizite Beispiele step-by-step erforderlich sind.

    • zs: Zero-shot — Ein Ansatz zur Lösung eines Problems ohne vorherige Schulungsbeispiele.

    • gen_qa: Eine Strategie, die speziell für Rezepte zum Mitbringen eigener Datensätze entwickelt wurde.

    • Richter: Eine spezielle Strategie für Amazon Nova LLM als Judge-Rezepte.

  • subtask: (Optional und entfernbar) Spezifiziert eine spezifische Unteraufgabe für bestimmte Bewertungsaufgaben. Entfernen Sie dies aus Ihrem Rezept, wenn Ihre Aufgabe keine Unteraufgaben hat.

  • metric: (Erforderlich) Die zu verwendende Bewertungsmetrik.

    • Genauigkeit: Prozentsatz der richtigen Antworten

    • exact_match: (Für math Benchmark), gibt die Rate zurück, mit der die eingegebenen vorhergesagten Zeichenketten exakt mit ihren Referenzen übereinstimmen.

    • Durchbiegung: (für strong reject Benchmark) gibt die relative Abweichung zum Basismodell und die Differenz der Signifikanzmetriken zurück.

    • pass @1: (Für humaneval Benchmark) ist eine Metrik, die verwendet wird, um den Prozentsatz der Fälle zu messen, in denen die Vorhersage des Modells mit der höchsten Konfidenz mit der richtigen Antwort übereinstimmt.

    • all: Gibt die folgenden Metriken zurück:

      • Geben Sie für gen_qa Ihren eigenen Datensatz-Benchmark die folgenden Metriken zurück:

        • rouge1: Misst die Überlappung von Unigrammen (einzelnen Wörtern) zwischen generiertem Text und Referenztext.

        • rouge2: Misst die Überlappung von Bigrammen (zwei aufeinanderfolgende Wörter) zwischen generiertem Text und Referenztext.

        • rougeL: Misst die längste gemeinsame Teilsequenz zwischen Texten und berücksichtigt Lücken beim Abgleich.

        • exact_match: Binärer Wert (0 oder 1), der angibt, ob der generierte Text Zeichen für Zeichen exakt mit dem Referenztext übereinstimmt.

        • quasi_exact_match: Ähnlich wie Exact Match, aber milder, wobei in der Regel Unterschiede zwischen Groß- und Kleinschreibung, Interpunktion und Leerraum ignoriert werden.

        • f1_score: Harmonisches Mittel aus Genauigkeit und Erinnerungsvermögen, wobei die Wortüberschneidung zwischen vorhergesagten Antworten und Referenzantworten gemessen wird.

        • f1_score_quasi: Ähnlich wie f1_score, jedoch mit milderem Abgleich, wobei ein normalisierter Textvergleich verwendet wird, bei dem geringfügige Unterschiede ignoriert werden.

        • bleu: Misst die Genauigkeit von N-Gramm-Übereinstimmungen zwischen generiertem Text und Referenztext, was häufig bei der Bewertung von Übersetzungen verwendet wird.

      • Geben Sie für llm_judge Ihren eigenen Datensatz-Benchmark die folgenden Messwerte zurück:

        • a_scores: Anzahl der Siege bei response_A allen Bewertungsdurchläufen mit Vorwärts- und Rückwärtsdurchgängen.

        • a_scores_stderr: Standardfehler bei response_A scores paarweisen Beurteilungen.

        • b_scores: Anzahl der Siege bei der Bewertung response_B nach vorn und hinten.

        • b_scores_stderr: Standardfehler bei response_B scores paarweisen Beurteilungen.

        • ties: Anzahl der Urteile, bei denen response_A und als gleich bewertet response_B wurden.

        • ties_stderr: Standardfehler bei Gleichheit bei paarweisen Urteilen.

        • inference_error: Anzahl der Urteile, die nicht richtig bewertet werden konnten.

        • inference_error_stderr: Standardfehler bei den Folgerungen aller Urteile.

        • score: Die Gesamtpunktzahl basiert auf Siegen aus Vorwärts- und Rückwärtspässen für. response_B

        • score_stderr: Standardfehler der Gesamtpunktzahl bei paarweisen Urteilen.

        • winrate: Die Wahrscheinlichkeit, dass Antworte_B der Antworte_A vorgezogen wird, berechnet anhand der Bradley-Terry-Wahrscheinlichkeit.

        • lower_rate: Untergrenze (2,5 Perzentil) der geschätzten Gewinnrate aus dem Bootstrap-Sampling.

Konfiguration der Inferenz

Im Folgenden finden Sie eine Inferenzkonfiguration und eine Erläuterung der beteiligten Parameter. Alle Parameter sind optional.

inference: max_new_tokens: 200 top_k: -1 top_p: 1.0 temperature: 0
  • max_new_tokens: Die maximale Anzahl der zu generierenden Token. Dies muss eine Ganzzahl sein.

  • top_k: Die Anzahl der zu berücksichtigenden Tokens mit der höchsten Wahrscheinlichkeit. Dies muss eine Ganzzahl sein.

  • top_p: Der kumulative Wahrscheinlichkeitsschwellenwert für Token-Sampling. Dabei muss es sich um eine Gleitkommazahl zwischen 0,0 und 1,0 (einschließlich) handeln.

  • temperature: Zufälligkeit bei der Token-Auswahl. Größere Werte führen zu mehr Zufälligkeit. Verwenden Sie 0, um die Ergebnisse deterministisch zu machen. Bei diesem Wert muss es sich um eine Gleitkommazahl mit einem Mindestwert von 0 handeln.

Beachten Siehumaneval, dass wir für die folgende Inferenzkonfiguration empfehlen:

inference: top_k: 1 max_new_tokens: 1600 temperature: 0.0

Beispiele für Bewertungsrezepte

Amazon Nova bietet vier Arten von Bewertungsrezepten, die im HyperPod GitHub Rezepte-Repository verfügbar sind.

Allgemeine Text-Benchmark-Rezepte

Diese Rezepte ermöglichen es Ihnen, die grundlegenden Funktionen von Amazon Nova-Modellen anhand einer umfassenden Suite von reinen Textbenchmarks zu bewerten. Sie werden im folgenden Format bereitgestellt. xxx_general_text_benchmark_eval.yaml

Allgemeines multimodales Benchmark-Rezept

Diese Rezepte ermöglichen es Ihnen, die grundlegenden Funktionen von Amazon Nova-Modellen anhand einer umfassenden Reihe von Multimodalitäts-Benchmarks zu bewerten. Sie werden im folgenden Format bereitgestellt. xxx_general_multi_modal_benchmark_eval.yaml

Bringen Sie Ihr eigenes Benchmark-Rezept für Datensätze mit

Diese Rezepte ermöglichen es Ihnen, Ihren eigenen Datensatz für das Benchmarking mitzubringen und die Modellergebnisse anhand verschiedener Arten von Metriken mit Referenzantworten zu vergleichen. Sie werden im folgenden Format xxx_bring_your_own_dataset_eval.yaml bereitgestellt.

Im Folgenden sind die Anforderungen für das Mitbringen Ihres eigenen Datensatzes aufgeführt:

  • Anforderungen an das Dateiformat

    • Sie müssen eine einzige gen_qa.jsonl Datei mit Bewertungsbeispielen beifügen.

    • Ihr Datensatz muss an einen S3-Standort hochgeladen werden, an dem der SageMaker KI-Schulungsjob darauf zugreifen kann.

    • Die Datei muss dem erforderlichen Schemaformat für einen allgemeinen Q&A-Datensatz entsprechen.

  • Anforderungen an das Schemaformat — Jede Zeile in der JSONL-Datei muss ein JSON-Objekt mit den folgenden Feldern sein:

    • query: (Erforderlich) Zeichenfolge, die die Frage oder Anweisung enthält, für die eine Antwort erforderlich ist

    • response: (Erforderlich) Zeichenfolge, die die erwartete Modellausgabe enthält

    • system: (Optional) Zeichenfolge, die die Systemaufforderung enthält, die das Verhalten, die Rolle oder die Persönlichkeit des KI-Modells festlegt, bevor es die Abfrage verarbeitet

Hier ist ein Beispieleintrag zum Mitbringen eines eigenen Datensatzes

{ "system":"You are a english major with top marks in class who likes to give minimal word responses: ", "query":"What is the symbol that ends the sentence as a question", "response":"?" } { "system":"You are a pattern analysis specialist that provides succinct answers: ", "query":"What is the next number in this series? 1, 2, 4, 8, 16, ?", "response":"32" } { "system":"You have great attention to detail that follows instructions accurately: ", "query":"Repeat only the last two words of the following: I ate a hamburger today and it was kind of dry", "response":"of dry" }

Um Ihren benutzerdefinierten Datensatz zu verwenden, ändern Sie Ihr Bewertungsrezept mit den folgenden Pflichtfeldern und ändern Sie nichts am Inhalt:

evaluation: task: gen_qa strategy: gen_qa metric: all

Die folgenden Einschränkungen gelten:

  • Pro Auswertung ist nur eine JSONL-Datei zulässig.

  • Die Datei muss strikt dem definierten Schema folgen.

  • Begrenzung der Kontextlänge: Für jede Stichprobe im Datensatz sollte die Kontextlänge (einschließlich System- und Abfrageaufforderungen) weniger als 3,5 KB betragen

Amazon Nova LLM als Benchmark-Rezept für Richter

Amazon Nova LLM as a Judge ist eine Modellevaluierungsfunktion, mit der Kunden die Qualität der Antworten eines Modells mit einer Antwort aus einem Basismodell anhand eines benutzerdefinierten Datensatzes vergleichen können. Es verwendet einen Datensatz mit Eingabeaufforderungen, Basisantworten und Antworten von Herausforderern und verwendet ein Nova Judge-Modell, um eine auf der Bradley-Terry-Wahrscheinlichkeit basierende Winrate-Metrik mit paarweisen Vergleichen bereitzustellen.

Die Rezepte werden im folgenden Format bereitgestellt. xxx_llm_judge_eval.yaml

Im Folgenden sind die Anforderungen für LLM als Richter aufgeführt:

  • Anforderungen an das Dateiformat

    • Fügen Sie eine einzige llm_judge.jsonl Datei mit Bewertungsbeispielen hinzu. Der Dateiname muss seinllm_judge.jsonl.

    • Ihr Datensatz muss an einen S3-Speicherort hochgeladen werden, auf den SageMaker AI HyperPod RIG zugreifen kann.

    • Die Datei muss dem für den llm_judge.jsonl Datensatz erforderlichen Schemaformat entsprechen.

    • Der Eingabedatensatz sollte sicherstellen, dass alle Datensätze eine Kontextlänge von weniger als 12 KB haben.

  • Anforderungen an das Schemaformat — Jede Zeile in der JSONL-Datei muss ein JSON-Objekt mit den folgenden Feldern sein:

    • prompt: (Erforderlich) Eine Zeichenfolge, die die Aufforderung für die generierte Antwort enthält.

    • response_A: Eine Zeichenfolge, die die Basisantwort enthält.

    • response_B: Eine Zeichenfolge, die die alternative Antwort enthält, wird mit der Ausgangsantwort verglichen.

Hier ist ein Beispieleintrag für einen LLM als Richter

{ "prompt": "What is the most effective way to combat climate change?", "response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.", "response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less." } { "prompt": "Explain how a computer's CPU works", "response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.", "response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations." } { "prompt": "How does photosynthesis work?", "response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.", "response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts." }

Um Ihren benutzerdefinierten Datensatz zu verwenden, ändern Sie Ihr Bewertungsrezept mit den folgenden Pflichtfeldern, ändern Sie nichts am Inhalt:

evaluation: task: llm_judge strategy: judge metric: all

Die folgenden Einschränkungen gelten:

  • Pro Auswertung ist nur eine JSONL-Datei zulässig.

  • Die Datei muss strikt dem definierten Schema folgen.

  • Die Modelle von Amazon Nova Judge sind für alle Spezifikationen der Modellfamilie (d. h. Lite, Micro und Pro) identisch.

  • Benutzerdefinierte Judge-Modelle werden derzeit nicht unterstützt.

  • Begrenzung der Kontextlänge: Für jede Stichprobe im Datensatz sollte die Kontextlänge (einschließlich System- und Abfrageaufforderungen) weniger als 7 KB betragen

Starten Sie einen Evaluierungsjob

Im Folgenden finden Sie einen Vorschlag für die Konfiguration des Testinstanztyps und des Modelltyps:

# Install Dependencies (Helm - https://helm.sh/docs/intro/install/) curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 chmod 700 get_helm.sh ./get_helm.sh rm -f ./get_helm.sh # Install the HyperPod CLI git clone --recurse-submodules https://github.com/aws/sagemaker-hyperpod-cli.git git checkout -b release_v2 cd sagemaker-hyperpod-cli pip install . # Verify the installation hyperpod --help # Connect to a HyperPod Cluster hyperpod connect-cluster --cluster-name cluster-name # Submit the Job using the recipe for eval # Namespace by default should be kubeflow hyperpod start-job [--namespace namespace] --recipe evaluation/nova/nova_micro_p5_48xl_general_text_benchmark_eval --override-parameters \ '{ "instance_type":"p5d.48xlarge", "container": "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-HP-Eval-latest", "recipes.run.name": custom-run-name, "recipes.run.model_type": model_type, "recipes.run.model_name_or_path" " model name or finetune checkpoint s3uri, "recipes.run.data_s3_path": s3 for input data only for genqa and llm_judge, must be full S3 path that include filename, }' # List jobs hyperpod list-jobs [--namespace namespace] [--all-namespaces] # Getting Job details hyperpod get-job --job-name job-name [--namespace namespace] [--verbose] # Listing Pods hyperpod list-pods --job-name job-name --namespace namespace # Cancel Job hyperpod cancel-job --job-name job-name [--namespace namespace]

Sie sollten den Auftragsstatus auch über die Amazon EKS-Cluster-Konsole einsehen können.

Rufen Sie Ihre Ergebnisse auf und visualisieren Sie sie

Nachdem Ihre Bewertungsaufgabe erfolgreich abgeschlossen wurde, können Sie mithilfe der Informationen in diesem Abschnitt auf die Ergebnisse zugreifen und sie analysieren. Basierend auf den output_s3_path (wies3://output_path/) im Rezept definierten Werten sieht die Ausgabestruktur wie folgt aus:

job_name/ ├── eval-result/ │ └── job-name/ │ └── results_[timestamp].json │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── eval-tensorboard-result/ └── job-name/ └── eval/ └── events.out.tfevents.[timestamp]

Die Ergebnisse der Metriken werden am angegebenen S3-Ausgabespeicherort gespeichert s3://output_path/job_name/eval-result/result-timestamp.json

Tensorboard-Ergebnisse werden im S3-Pfad gespeichert. s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip

Die Inferenzausgaben, mit Ausnahme von strong_reject undgen_qa, werden im S3-Pfad gespeichert. s3://output_path/job_name/eval-result/details/model/taskname.parquet

Gehen Sie wie folgt vor, um Ihre Bewertungskennzahlen in Tensorboard zu visualisieren:

  1. Navigieren Sie zu SageMaker AI Tensorboard.

  2. Wählen Sie S3-Ordner aus.

  3. Fügen Sie beispielsweise Ihren S3-Ordnerpfad hinzus3://output_path/job-name/eval-tensorboard-result/eval.

  4. Warten Sie, bis die Synchronisation abgeschlossen ist.

Die Zeitreihen, Skalare und Textvisualisierungen sind verfügbar.

Wir empfehlen Ihnen, die folgenden bewährten Methoden:

  • Organisieren Sie Ihre Ausgabepfade nach Modell und Benchmark-Typ.

  • Halten Sie konsistente Namenskonventionen ein, um die Nachverfolgung zu vereinfachen.

  • Speichern Sie die extrahierten Ergebnisse an einem sicheren Ort.

  • Überwachen Sie den TensorBoard Synchronisierungsstatus, um sicherzustellen, dass Daten erfolgreich geladen wurden.

Sie finden HyperPod Auftragsfehlerprotokolle in der CloudWatch Protokollgruppe/aws/sagemaker/Clusters/cluster-id.