Comprendi i risultati di un processo di valutazione automatico - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Comprendi i risultati di un processo di valutazione automatico

Una volta completato il processo di valutazione automatica del modello, i risultati vengono salvati in Amazon S3. Le sezioni seguenti descrivono i file generati e come interpretarli.

Interpretazione della output.json struttura del file

Il output.json file contiene punteggi aggregati per i set di dati e le metriche selezionati.

Di seguito è riportato un esempio di output

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

Interpretazione della struttura del file dei risultati a livello di istanza

Oneevaluation_name_dataset_nameFile.jsonl contenente risultati a livello di istanza per ogni richiesta jsonlines. Se hai 300 delle richieste nei dati di input di jsonlines, questo file di output jsonlines contiene le risposte. 300 Il file di output contiene la richiesta fatta al modello seguita dal punteggio per quella valutazione. Segue un esempio di output a livello di istanza.

Interpretazione del rapporto

Un rapporto di valutazione contiene i risultati del lavoro di valutazione del modello di base. Il contenuto del rapporto di valutazione dipende dal tipo di attività utilizzata per valutare il modello. Ogni rapporto contiene le seguenti sezioni:

  1. I punteggi complessivi per ogni valutazione riuscita nell'ambito dell'attività di valutazione. Come esempio di una valutazione con un set di dati, se hai valutato il tuo modello per un'attività di classificazione per Accuratezza e robustezza semantica, nella parte superiore del rapporto viene visualizzata una tabella che riassume i risultati della valutazione per Accuratezza e precisione. Altre valutazioni con altri set di dati possono essere strutturate in modo diverso.

  2. La configurazione per il processo di valutazione, inclusi il nome del modello, il tipo, i metodi di valutazione utilizzati e i set di dati rispetto ai quali è stato valutato il modello.

  3. Una sezione dettagliata dei risultati di valutazione che riassume l'algoritmo di valutazione, fornisce informazioni e collegamenti a tutti i set di dati incorporati, le modalità di calcolo dei punteggi e tabelle che mostrano alcuni dati di esempio con i punteggi associati.

  4. Una sezione Valutazioni non riuscite che contiene un elenco di valutazioni non completate. Se nessuna valutazione ha avuto esito negativo, questa sezione del rapporto viene omessa.