Analyse comparative avec des ensembles de données standardisés Évaluation du modèle linguistique étendu en tant que juge (LLMAJ)Scorers personnalisés

Types d'évaluation et soumission de Job

Analyse comparative avec des ensembles de données standardisés

Utilisez le type d'évaluation de référence pour évaluer la qualité de votre modèle dans des ensembles de données de référence standardisés, y compris des ensembles de données populaires tels que MMLU et BBH.

Comparaison	Ensemble de données personnalisé pris en charge	Modalités	Description	Métriques	Stratégie	Sous-tâche disponible
mmlu	Non	Texte	Compréhension linguistique multitâche : teste les connaissances dans 57 domaines.	précision	zs_cot	Oui
mmlu_pro	Non	Texte	MMLU – Sous-ensemble professionnel : se concentre sur les domaines professionnels tels que le droit, la médecine, la comptabilité et l’ingénierie.	précision	zs_cot	Non
bbh	Non	Texte	Tâches de raisonnement avancées : ensemble de problèmes difficiles qui mettent à l’épreuve des compétences cognitives et de résolution de problèmes de haut niveau.	précision	fs_cot	Oui
gpqa	Non	Texte	Réponses aux questions de physique générale : évalue la compréhension des concepts de physique et les capacités de résolution de problèmes connexes.	précision	zs_cot	Non
math	Non	Texte	Résolution de problèmes mathématiques : mesure le raisonnement mathématique dans des domaines tels que l’algèbre, le calcul et les problèmes de mots.	exact_match	zs_cot	Oui
strong_reject	Non	Texte	Tâche de contrôle qualité : teste la capacité du modèle à détecter et à rejeter le contenu inapproprié, préjudiciable ou incorrect.	deflection	zs	Oui
ifeval	Non	Texte	Évaluation suivant les instructions : évalue la précision avec laquelle un modèle suit les instructions données et exécute les tâches conformément aux spécifications.	précision	zs	Non

Pour plus d'informations sur les formats BYOD, consultezFormats de jeu de données pris en charge pour les tâches Bring-Your-Own-Dataset (BYOD).

Sous-tâches disponibles

La liste suivante répertorie les sous-tâches disponibles pour l'évaluation de modèles dans plusieurs domaines, notamment MMLU (Massive Multitask Language Understanding), BBH (Big Bench Hard) et MATH. StrongReject Ces sous-tâches vous permettent d’évaluer les performances de votre modèle par rapport à des capacités et à des domaines de connaissances spécifiques.

Sous-tâches du MMLU


MMLU_SUBTASKS = [
    "abstract_algebra",
    "anatomy",
    "astronomy",
    "business_ethics",
    "clinical_knowledge",
    "college_biology",
    "college_chemistry",
    "college_computer_science",
    "college_mathematics",
    "college_medicine",
    "college_physics",
    "computer_security",
    "conceptual_physics",
    "econometrics",
    "electrical_engineering",
    "elementary_mathematics",
    "formal_logic",
    "global_facts",
    "high_school_biology",
    "high_school_chemistry",
    "high_school_computer_science",
    "high_school_european_history",
    "high_school_geography",
    "high_school_government_and_politics",
    "high_school_macroeconomics",
    "high_school_mathematics",
    "high_school_microeconomics",
    "high_school_physics",
    "high_school_psychology",
    "high_school_statistics",
    "high_school_us_history",
    "high_school_world_history",
    "human_aging",
    "human_sexuality",
    "international_law",
    "jurisprudence",
    "logical_fallacies",
    "machine_learning",
    "management",
    "marketing",
    "medical_genetics",
    "miscellaneous",
    "moral_disputes",
    "moral_scenarios",
    "nutrition",
    "philosophy",
    "prehistory",
    "professional_accounting",
    "professional_law",
    "professional_medicine",
    "professional_psychology",
    "public_relations",
    "security_studies",
    "sociology",
    "us_foreign_policy",
    "virology",
    "world_religions"
]

Sous-tâches BBH


BBH_SUBTASKS = [
    "boolean_expressions",
    "causal_judgement",
    "date_understanding",
    "disambiguation_qa",
    "dyck_languages",
    "formal_fallacies",
    "geometric_shapes",
    "hyperbaton",
    "logical_deduction_five_objects",
    "logical_deduction_seven_objects",
    "logical_deduction_three_objects",
    "movie_recommendation",
    "multistep_arithmetic_two",
    "navigate",
    "object_counting",
    "penguins_in_a_table",
    "reasoning_about_colored_objects",
    "ruin_names",
    "salient_translation_error_detection",
    "snarks",
    "sports_understanding",
    "temporal_sequences",
    "tracking_shuffled_objects_five_objects",
    "tracking_shuffled_objects_seven_objects",
    "tracking_shuffled_objects_three_objects",
    "web_of_lies",
    "word_sorting"
]

Sous-tâches mathématiques


MATH_SUBTASKS = [
    "algebra", 
    "counting_and_probability", 
    "geometry",
    "intermediate_algebra", 
    "number_theory", 
    "prealgebra", 
    "precalculus"
]

StrongReject Sous-tâches


STRONG_REJECT_SUBTASKS = [
    "gcg_transfer_harmbench", 
    "gcg_transfer_universal_attacks",
    "combination_3", 
    "combination_2", 
    "few_shot_json", 
    "dev_mode_v2",
    "dev_mode_with_rant",
    "wikipedia_with_title", 
    "distractors",
    "wikipedia",
     "style_injection_json", 
    "style_injection_short",
    "refusal_suppression", 
    "prefix_injection", 
    "distractors_negated",
    "poems", 
    "base64", 
    "base64_raw", "
    base64_input_only",
    "base64_output_only", 
    "evil_confidant", 
    "aim", 
    "rot_13",
    "disemvowel", 
    "auto_obfuscation", 
    "auto_payload_splitting", 
    "pair",
    "pap_authority_endorsement", 
    "pap_evidence_based_persuasion",
    "pap_expert_endorsement", 
    "pap_logical_appeal", 
    "pap_misrepresentation"
]

Soumettez votre offre d'emploi de référence

Évaluation du modèle linguistique étendu en tant que juge (LLMAJ)

Utilisez l'évaluation LLM-as-a-judge (LLMAJ) pour tirer parti d'un autre modèle de pointe afin de classer les réponses de votre modèle cible. Vous pouvez utiliser les modèles AWS Bedrock comme juges en appelant create_evaluation_job l'API pour lancer la tâche d'évaluation.

Pour plus d'informations sur les modèles de juges pris en charge, voir : https://docs.aws.amazon.com/bedrock/latest/userguide/models-supported.html

Vous pouvez utiliser deux formats de mesures différents pour définir l'évaluation :

Métriques intégrées : Tirez parti des métriques intégrées de AWS Bedrock pour analyser la qualité des réponses d'inférence de votre modèle. Pour plus d'informations, voir : https://docs.aws.amazon.com/bedrock/latest/userguide/model- evaluation-type-judge-prompt .html
Métriques personnalisées : définissez vos propres métriques personnalisées dans le format de métrique personnalisé de Bedrock Evaluation pour analyser la qualité des réponses d'inférence de votre modèle à l'aide de vos propres instructions. Pour plus d'informations, voir : https://docs.aws.amazon.com/bedrock/latest/userguide/model- evaluation-custom-metrics-prompt -formats.html

Soumettre une tâche LLMAJ de métriques intégrée

Soumettre une tâche LLMAJ de métriques personnalisée

Définissez vos métriques personnalisées :


{
    "customMetricDefinition": {
        "name": "PositiveSentiment",
        "instructions": (
            "You are an expert evaluator. Your task is to assess if the sentiment of the response is positive. "
            "Rate the response based on whether it conveys positive sentiment, helpfulness, and constructive tone.\n\n"
            "Consider the following:\n"
            "- Does the response have a positive, encouraging tone?\n"
            "- Is the response helpful and constructive?\n"
            "- Does it avoid negative language or criticism?\n\n"
            "Rate on this scale:\n"
            "- Good: Response has positive sentiment\n"
            "- Poor: Response lacks positive sentiment\n\n"
            "Here is the actual task:\n"
            "Prompt: {{prompt}}\n"
            "Response: {{prediction}}"
        ),
        "ratingScale": [
            {"definition": "Good", "value": {"floatValue": 1}},
            {"definition": "Poor", "value": {"floatValue": 0}}
        ]
    }
}

Pour plus d'informations, voir : https://docs.aws.amazon.com/bedrock/latest/userguide/model- evaluation-custom-metrics-prompt -formats.html

Scorers personnalisés

Définissez votre propre fonction de notation personnalisée pour lancer une tâche d'évaluation. Le système fournit deux marqueurs intégrés : Prime math et Prime code. Vous pouvez également apporter votre propre fonction de score. Vous pouvez copier directement le code de votre fonction scorer ou apporter votre propre définition de fonction Lambda à l'aide de l'ARN associé. Par défaut, les deux types de marqueurs produisent des résultats d'évaluation qui incluent des métriques standard telles que le score F1, ROUGE et BLEU.

Pour plus d'informations sur les évaluateurs intégrés et personnalisés et leurs exigences/contrats respectifs, voir. Évaluez à l'aide de marqueurs prédéfinis et personnalisés

Enregistrez votre jeu de données

Apportez votre propre jeu de données pour un scorer personnalisé en l'enregistrant en tant que jeu de données SageMaker Hub Content Dataset.

Soumettre une tâche de scorer intégrée

Soumettre un job de scorer personnalisé

Définissez une fonction de récompense personnalisée. Pour de plus amples informations, veuillez consulter Scorateurs personnalisés (apportez vos propres statistiques).

Enregistrez la fonction de récompense personnalisée

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Démarrage

Formats de métriques d'évaluation