Interpretazione della output.json struttura del file Interpretazione della struttura del file dei risultati a livello di istanza Interpretazione del rapporto

Comprendi i risultati di un processo di valutazione automatico

Una volta completato il processo di valutazione automatica del modello, i risultati vengono salvati in Amazon S3. Le sezioni seguenti descrivono i file generati e come interpretarli.

Interpretazione della `output.json` struttura del file

Il output.json file contiene punteggi aggregati per i set di dati e le metriche selezionati.

Di seguito è riportato un esempio di output


{
    "evaluations": [{
        "evaluation_name": "factual_knowledge",
        "dataset_name": "trex",
		## The structure of the prompt template changes based on the foundation model selected
		"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
        "dataset_scores": [{
            "name": "factual_knowledge",
            "value": 0.2966666666666667
        }],
        "category_scores": [{
                "name": "Author",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.4117647058823529
                }]
            },
				....
            {
                "name": "Capitals",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.2857142857142857
                }]
            }
        ]
    }]
}

Interpretazione della struttura del file dei risultati a livello di istanza

Un file evaluation_name _ dataset_name .jsonl contenente risultati a livello di istanza per ogni richiesta jsonlines. Se hai 300 delle richieste nei dati di input di jsonlines, questo file di output jsonlines contiene le risposte. 300 Il file di output contiene la richiesta fatta al modello seguita dal punteggio per quella valutazione. Segue un esempio di output a livello di istanza.

Interpretazione del rapporto

Un rapporto di valutazione contiene i risultati del lavoro di valutazione del modello di base. Il contenuto del rapporto di valutazione dipende dal tipo di attività utilizzata per valutare il modello. Ogni rapporto contiene le seguenti sezioni:

I punteggi complessivi per ogni valutazione riuscita nell'ambito dell'attività di valutazione. Come esempio di una valutazione con un set di dati, se hai valutato il tuo modello per un'attività di classificazione per Accuratezza e robustezza semantica, nella parte superiore del rapporto viene visualizzata una tabella che riassume i risultati della valutazione per Accuratezza e precisione. Altre valutazioni con altri set di dati possono essere strutturate in modo diverso.
La configurazione per il processo di valutazione, inclusi il nome del modello, il tipo, i metodi di valutazione utilizzati e i set di dati rispetto ai quali è stato valutato il modello.
Una sezione dettagliata dei risultati di valutazione che riassume l'algoritmo di valutazione, fornisce informazioni e collegamenti a tutti i set di dati incorporati, le modalità di calcolo dei punteggi e tabelle che mostrano alcuni dati di esempio con i punteggi associati.
Una sezione Valutazioni non riuscite che contiene un elenco di valutazioni non completate. Se nessuna valutazione ha avuto esito negativo, questa sezione del rapporto viene omessa.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Comprendi i risultati di un lavoro di valutazione umana

Usare la libreria fmeval