Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Un modello di linguaggio di grandi dimensioni (LLM) è un modello di apprendimento automatico in grado di analizzare e generare testo in linguaggio naturale. Se desideri valutare un LLM, SageMaker AI offre le seguenti tre opzioni tra cui scegliere:
-
Imposta valutazioni manuali per una forza lavoro umana utilizzando Studio.
-
Valuta il tuo modello con un algoritmo utilizzando Studio.
-
Valuta automaticamente il tuo modello con un flusso di lavoro personalizzato utilizzando la
fmeval
libreria.
Puoi utilizzare un algoritmo per valutare automaticamente il tuo modello di base o chiedere a un team di lavoro umano di valutare le risposte dei modelli.
I team di lavoro umano possono valutare e confrontare fino a due modelli contemporaneamente utilizzando metriche che indicano la preferenza per una risposta rispetto a un'altra. Il flusso di lavoro, le metriche e le istruzioni per una valutazione umana possono essere personalizzati per adattarsi a un caso d'uso particolare. Gli esseri umani possono anche fornire una valutazione più raffinata rispetto a una valutazione algoritmica.
Puoi anche utilizzare un algoritmo per valutare il tuo LLM utilizzando benchmark per valutare rapidamente le risposte del modello in Studio. Studio offre un flusso di lavoro guidato per valutare le risposte di un JumpStart modello utilizzando metriche predefinite. Queste metriche sono specifiche per le attività di intelligenza artificiale generativa. Questo flusso guidato utilizza set di dati integrati o personalizzati per valutare il tuo LLM.
In alternativa, puoi utilizzare la fmeval
libreria per creare un flusso di lavoro più personalizzato utilizzando valutazioni automatiche rispetto a quello disponibile in Studio. Utilizzo Python codice e fmeval
libreria, puoi valutare qualsiasi LLM basato su testo, inclusi i modelli creati all'esterno di. JumpStart
I seguenti argomenti forniscono una panoramica delle valutazioni dei modelli Foundation, un riepilogo dei flussi di lavoro automatici e umani di Foundation Model Evaluation (FMEval), come eseguirli e come visualizzare un rapporto di analisi dei risultati. L'argomento sulla valutazione automatica mostra come configurare ed eseguire sia una valutazione iniziale che una valutazione personalizzata.
Argomenti