Évaluation avec Inspect AI

Vous pouvez évaluer vos modèles Amazon Nova personnalisés à l'aide d'Inspect AI, un framework d'évaluation open source. Inspect AI prend en charge les points de référence standardisés élaborés par la communauté de recherche en IA, vous permettant de mesurer les performances des modèles en fonction des connaissances, du raisonnement, du codage et des tâches de sécurité.

Choisissez l'approche d'évaluation la mieux adaptée à votre flux de travail :

Inspectez le SDK AI : exécutez des évaluations de manière interactive à partir d'un bloc-notes ou d'un environnement local par rapport à votre point de terminaison d' SageMaker inférence. Idéal pour le développement, l'itération et les tests rapides.
Inspectez le conteneur AI — Exécutez des évaluations à grande échelle sous forme de tâches de SageMaker formation. Idéal pour les pipelines d'évaluation de la production, l'enchaînement de plusieurs benchmarks et les flux de travail automatisés.

Flux de travail recommandé : commencez par le SDK Inspect AI pour créer et tester vos benchmarks d'évaluation personnalisés à l'aide de l'invite d'intégration de l'assistant AI, puis exécutez des évaluations par rapport à votre solution d'inférence préférée. Une fois que vos benchmarks sont entièrement validés, vous pouvez facilement passer à l'évaluation basée sur les tâches à l'aide du conteneur Inspect AI. Aucune modification de code n'est requise. Déplacez simplement vos fichiers de référence et votre fichier de recette vers S3 et lancez la tâche.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Supprimer un déploiement de modèle personnalisé

Inspectez le SDK AI