Valutazione del modello - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Valutazione del modello

Amazon Bedrock supporta i processi di valutazione del modello. I risultati di un lavoro di valutazione del modello consentono di confrontare i risultati del modello e quindi scegliere il modello più adatto per le applicazioni di intelligenza artificiale generativa a valle.

I lavori di valutazione dei modelli supportano casi d'uso comuni per modelli linguistici di grandi dimensioni (LLM) come la generazione di testo, la classificazione del testo, la risposta alle domande e il riepilogo del testo.

Per valutare le prestazioni di un modello per i processi di valutazione automatica dei modelli, è possibile utilizzare set di dati di prompt incorporati o set di dati di prompt personalizzati. Per i lavori di valutazione dei modelli che utilizzano lavoratori, è necessario disporre di un set di dati personalizzato.

Puoi scegliere di creare un processo di valutazione del modello automatico o un processo di valutazione del modello che utilizza una forza lavoro umana.

Panoramica: processi di valutazione del modello automatica

I processi di valutazione del modello automatici consentono di valutare rapidamente la capacità di un modello di eseguire un'attività. Puoi fornire il tuo set di dati dei prompt personalizzato che hai adattato a un caso d'uso specifico oppure puoi utilizzare un set di dati integrato disponibile.

Panoramica: processi di valutazione del modello che utilizzano lavoratori umani

I processi di valutazione del modello che utilizzano lavoratori umani consentono di apportare il contributo umano al processo di valutazione del modello. Questi possono essere dipendenti dell'azienda o un gruppo di soggetti esperti del settore.

Gli argomenti seguenti descrivono le attività di valutazione del modello disponibili e i tipi di metriche che è possibile utilizzare. Descrivono inoltre i set di dati integrati disponibili e come specificare il set di dati.