Evaluación comparativa con conjuntos de datos estandarizados Evaluación de un modelo lingüístico amplio como juez (LLMAJ)Puntuadores personalizados

Tipos de evaluación y presentación de trabajos

Evaluación comparativa con conjuntos de datos estandarizados

Utilice el tipo de evaluación comparativa para evaluar la calidad de su modelo en conjuntos de datos de referencia estandarizados, incluidos conjuntos de datos populares como MMLU y BBH.

Referencia	Se admiten conjuntos de datos personalizados	Modalidades	Description (Descripción)	Métricas	Strategy (Estrategia)	Subtarea disponible
mmlu	No	Texto	Comprensión del lenguaje multitarea: evalúa los conocimientos sobre 57 materias.	precisión	zs_cot	Sí
mmlu_pro	No	Texto	MMLU (subconjunto profesional): se centra en dominios profesionales como derecho, medicina, contabilidad e ingeniería.	precisión	zs_cot	No
bbh	No	Texto	Tareas de razonamiento avanzado: conjunto de problemas complejos que ponen a prueba las habilidades cognitivas y de resolución de problemas de nivel superior.	precisión	fs_cot	Sí
gpqa	No	Texto	Respuesta a preguntas de física general: evalúa la comprensión de conceptos de física y habilidades relacionadas con la resolución de problemas.	precisión	zs_cot	No
math	No	Texto	Resolución de problemas matemáticos: mide el razonamiento matemático en temas como álgebra, cálculo y problemas verbales.	exact_match	zs_cot	Sí
strong_reject	No	Texto	Tarea de control de calidad: prueba la capacidad del modelo para detectar y rechazar contenido inapropiado, dañino o incorrecto.	desviación	zs	Sí
ifeval	No	Texto	Evaluación de seguimiento de instrucciones: mide la precisión con la que un modelo sigue las instrucciones dadas y completa las tareas según las especificaciones.	precisión	zs	No

Para obtener más información sobre los formatos BYOD, consulte. Formatos de conjuntos de datos compatibles para Bring-Your-Own-Dataset tareas (BYOD)

Subtareas disponibles

A continuación, se enumeran las subtareas disponibles para la evaluación de modelos en varios dominios, como MMLU (Massive Multitask Language Understanding), BBH (Big Bench Hard) y MATH. StrongReject Estas subtareas le permiten evaluar el rendimiento del modelo en función de capacidades y áreas de conocimiento específicas.

Subtareas de MMLU


MMLU_SUBTASKS = [
    "abstract_algebra",
    "anatomy",
    "astronomy",
    "business_ethics",
    "clinical_knowledge",
    "college_biology",
    "college_chemistry",
    "college_computer_science",
    "college_mathematics",
    "college_medicine",
    "college_physics",
    "computer_security",
    "conceptual_physics",
    "econometrics",
    "electrical_engineering",
    "elementary_mathematics",
    "formal_logic",
    "global_facts",
    "high_school_biology",
    "high_school_chemistry",
    "high_school_computer_science",
    "high_school_european_history",
    "high_school_geography",
    "high_school_government_and_politics",
    "high_school_macroeconomics",
    "high_school_mathematics",
    "high_school_microeconomics",
    "high_school_physics",
    "high_school_psychology",
    "high_school_statistics",
    "high_school_us_history",
    "high_school_world_history",
    "human_aging",
    "human_sexuality",
    "international_law",
    "jurisprudence",
    "logical_fallacies",
    "machine_learning",
    "management",
    "marketing",
    "medical_genetics",
    "miscellaneous",
    "moral_disputes",
    "moral_scenarios",
    "nutrition",
    "philosophy",
    "prehistory",
    "professional_accounting",
    "professional_law",
    "professional_medicine",
    "professional_psychology",
    "public_relations",
    "security_studies",
    "sociology",
    "us_foreign_policy",
    "virology",
    "world_religions"
]

Subtareas de BBH


BBH_SUBTASKS = [
    "boolean_expressions",
    "causal_judgement",
    "date_understanding",
    "disambiguation_qa",
    "dyck_languages",
    "formal_fallacies",
    "geometric_shapes",
    "hyperbaton",
    "logical_deduction_five_objects",
    "logical_deduction_seven_objects",
    "logical_deduction_three_objects",
    "movie_recommendation",
    "multistep_arithmetic_two",
    "navigate",
    "object_counting",
    "penguins_in_a_table",
    "reasoning_about_colored_objects",
    "ruin_names",
    "salient_translation_error_detection",
    "snarks",
    "sports_understanding",
    "temporal_sequences",
    "tracking_shuffled_objects_five_objects",
    "tracking_shuffled_objects_seven_objects",
    "tracking_shuffled_objects_three_objects",
    "web_of_lies",
    "word_sorting"
]

Subtareas de matemáticas


MATH_SUBTASKS = [
    "algebra", 
    "counting_and_probability", 
    "geometry",
    "intermediate_algebra", 
    "number_theory", 
    "prealgebra", 
    "precalculus"
]

StrongReject Subtareas


STRONG_REJECT_SUBTASKS = [
    "gcg_transfer_harmbench", 
    "gcg_transfer_universal_attacks",
    "combination_3", 
    "combination_2", 
    "few_shot_json", 
    "dev_mode_v2",
    "dev_mode_with_rant",
    "wikipedia_with_title", 
    "distractors",
    "wikipedia",
     "style_injection_json", 
    "style_injection_short",
    "refusal_suppression", 
    "prefix_injection", 
    "distractors_negated",
    "poems", 
    "base64", 
    "base64_raw", "
    base64_input_only",
    "base64_output_only", 
    "evil_confidant", 
    "aim", 
    "rot_13",
    "disemvowel", 
    "auto_obfuscation", 
    "auto_payload_splitting", 
    "pair",
    "pap_authority_endorsement", 
    "pap_evidence_based_persuasion",
    "pap_expert_endorsement", 
    "pap_logical_appeal", 
    "pap_misrepresentation"
]

Envía tu trabajo de referencia

Evaluación de un modelo lingüístico amplio como juez (LLMAJ)

Utilice la evaluación LLM-as-a-judge (LLMAJ) para aprovechar otro modelo fronterizo y calificar las respuestas del modelo objetivo. Puede utilizar los modelos AWS Bedrock como jueces llamando a la create_evaluation_job API para iniciar el trabajo de evaluación.

Para obtener más información sobre los modelos de jueces compatibles, consulte: -supported.html https://docs.aws.amazon.com/bedrock/ latest/userguide/models

Puede utilizar dos formatos métricos diferentes para definir la evaluación:

Métricas integradas: aproveche las métricas integradas de AWS Bedrock para analizar la calidad de las respuestas de inferencia de su modelo. Para obtener más información, consulte: - .html https://docs.aws.amazon.com/bedrock/ latest/userguide/model evaluation-type-judge-prompt
Métricas personalizadas: defina sus propias métricas personalizadas en el formato de métrica personalizado de Bedrock Evaluation para analizar la calidad de las respuestas de inferencia de su modelo siguiendo sus propias instrucciones. Para obtener más información, consulte: - -formats.html https://docs.aws.amazon.com/bedrock/ latest/userguide/model evaluation-custom-metrics-prompt

Envíe un trabajo LLMAJ con métricas integradas

Envíe un trabajo de LLMAJ con métricas personalizadas

Defina su (s) métrica (s) personalizada (s):


{
    "customMetricDefinition": {
        "name": "PositiveSentiment",
        "instructions": (
            "You are an expert evaluator. Your task is to assess if the sentiment of the response is positive. "
            "Rate the response based on whether it conveys positive sentiment, helpfulness, and constructive tone.\n\n"
            "Consider the following:\n"
            "- Does the response have a positive, encouraging tone?\n"
            "- Is the response helpful and constructive?\n"
            "- Does it avoid negative language or criticism?\n\n"
            "Rate on this scale:\n"
            "- Good: Response has positive sentiment\n"
            "- Poor: Response lacks positive sentiment\n\n"
            "Here is the actual task:\n"
            "Prompt: {{prompt}}\n"
            "Response: {{prediction}}"
        ),
        "ratingScale": [
            {"definition": "Good", "value": {"floatValue": 1}},
            {"definition": "Poor", "value": {"floatValue": 0}}
        ]
    }
}

Para obtener más información, consulte: https://docs.aws.amazon.com/bedrock/latest/userguide/model- evaluation-custom-metrics-prompt -formats.html

Puntuadores personalizados

Defina su propia función de puntuación personalizada para iniciar un trabajo de evaluación. El sistema incluye dos marcadores integrados: Prime math y Prime code. También puedes traer tu propia función de anotador. Puede copiar el código de la función de puntuación directamente o crear su propia definición de función de Lambda mediante el ARN asociado. De forma predeterminada, ambos tipos de anotadores producen resultados de evaluación que incluyen métricas estándar, como la puntuación F1, ROUGE y BLEU.

Para obtener más información sobre los goleadores integrados y personalizados y sus requisitos o contratos respectivos, consulte. Evalúe con marcadores preestablecidos y personalizados