Évaluation de modèle - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Évaluation de modèle

Amazon Bedrock prend en charge les tâches d’évaluation de modèle. Les résultats d'une tâche d'évaluation de modèle vous permettent de comparer les résultats du modèle, puis de choisir le modèle le mieux adapté à vos applications d'IA générative en aval.

Les tâches d'évaluation de modèles répondent aux cas d'utilisation courants des grands modèles linguistiques (LLM) tels que la génération de texte, la classification de texte, la réponse aux questions et la synthèse de texte.

Pour évaluer les performances d'un modèle pour les tâches d'évaluation automatique du modèle, vous pouvez utiliser des jeux de données d'invite intégrés ou vos propres jeux de données d'invite. Pour les tâches d'évaluation de modèles qui utilisent des travailleurs, vous devez disposer de votre propre ensemble de données.

Vous pouvez choisir de créer une tâche d’évaluation de modèle automatique ou une tâche d’évaluation de modèle faisant appel à une main-d’œuvre humaine.

Présentation : tâches d’évaluation de modèle automatique

Les tâches d’évaluation de modèle automatique vous permettent d’évaluer rapidement la capacité d’un modèle à effectuer une tâche. Vous pouvez soit fournir votre propre jeu de données de requêtes personnalisé que vous avez pensé pour un cas d’utilisation spécifique, soit utiliser un jeu de données intégré mis à disposition.

Présentation : tâches d’évaluation de modèle faisant appel à des travailleurs humains

Les tâches d’évaluation de modèle qui font appel à des travailleurs humains vous permettent d’apporter une contribution humaine au processus d’évaluation de modèle. Il peut s’agir d’employés de votre entreprise ou d’un groupe d’experts, spécialistes de votre secteur d’activité.

Les rubriques suivantes décrivent les tâches d’évaluation de modèle disponibles, ainsi que les types de métriques que vous pouvez utiliser. Vous y trouverez également une description des jeux de données intégrés mis à disposition et la procédure à suivre pour spécifier votre propre jeu de données.