Jeux de données de requêtes personnalisés (automatique)Jeux de données de requêtes personnalisés (humain)

Jeu de données de requêtes personnalisé

Vous pouvez utiliser un jeu de données de requêtes personnalisé dans les tâches d’évaluation de modèle.

Les jeux de données de requêtes personnalisés doivent être stockés dans Amazon S3 et utiliser le format de ligne JSON et l’extension de fichier .jsonl. Lorsque vous chargez le jeu de données sur Amazon S3, veillez à mettre à jour la configuration CORS (Cross Origin Resource Sharing) sur le compartiment S3. Pour en savoir plus sur les autorisations CORS nécessaires, consultez Autorisation CORS (Cross Origin Resource Sharing) nécessaire sur les compartiments S3.

Rubriques

Exigences concernant les jeux de données de requêtes personnalisés utilisés dans les tâches d’évaluation de modèle automatique
Exigences concernant les jeux de données de requêtes personnalisés dans les tâches d’évaluation de modèle faisant appel à des travailleurs humains

Exigences concernant les jeux de données de requêtes personnalisés utilisés dans les tâches d’évaluation de modèle automatique

Dans les tâches d’évaluation de modèle automatique, vous pouvez utiliser un jeu de données de requêtes personnalisé pour chaque métrique que vous sélectionnez dans la tâche d’évaluation de modèle. Les jeux de données personnalisés utilisent le format de ligne JSON (.jsonl), et chaque ligne doit être un objet JSON valide. Votre jeu de données peut contenir jusqu’à 1 000 requêtes par tâche d’évaluation automatique.

Dans un jeu de données personnalisé, vous devez utiliser les clés suivantes.

prompt : nécessaire pour indiquer l’entrée pour les tâches suivantes :
- Requête à laquelle votre modèle doit répondre dans une tâche de génération de texte général.
- Question à laquelle votre modèle doit répondre dans une tâche de type question/réponse.
- Texte que votre modèle doit résumer dans une tâche de résumé de texte.
- Texte que votre modèle doit classifier dans les tâches de classification.
referenceResponse : nécessaire pour indiquer la réponse de vérité terrain par rapport à laquelle votre modèle est évalué pour les types de tâches suivants :
- Réponse à toutes les requêtes dans les tâches question/réponse.
- Réponse pour toutes les évaluations de précision et de robustesse.
category (facultatif) : génère des scores d’évaluation rapportés pour chaque catégorie.

Par exemple, pour évaluer la précision, il est nécessaire de disposer d’une question à poser et d’une réponse qui sera comparée à celle du modèle. Dans cet exemple, la clé prompt est utilisée avec la valeur contenue dans la question, et la clé referenceResponse avec la valeur contenue dans la réponse comme suit.


{
	"prompt": "Bobigny is the capital of",
	"referenceResponse": "Seine-Saint-Denis",
	"category": "Capitals"
}

L’exemple ci-dessus est une ligne unique d’un fichier d’entrée de lignes JSON qui sera envoyée à votre modèle sous forme de demande d’inférence. Le modèle sera invoqué pour chaque enregistrement de ce type dans votre jeu de données de lignes JSON. L’exemple d’entrée de données ci-dessous concerne une tâche question/réponse qui utilise une clé facultative category pour l’évaluation.


{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}

Pour en savoir plus sur le format exigé pour les tâches d’évaluation de modèle faisant appel à des travailleurs humains, consultez Exigences concernant les jeux de données de requêtes personnalisés dans les tâches d’évaluation de modèle faisant appel à des travailleurs humains.

Exigences concernant les jeux de données de requêtes personnalisés dans les tâches d’évaluation de modèle faisant appel à des travailleurs humains

Dans le format de ligne JSON, chaque ligne est un objet JSON valide. Un jeu de données de requêtes peut comporter un maximum de 1 000 requêtes par tâche d’évaluation de modèle.

Une entrée d'invite valide doit contenir la prompt clé. Les deux category referenceResponse sont facultatifs. Utilisez la clé category pour associer votre requête à une catégorie spécifique, laquelle vous permettra de filtrer les résultats pendant leur examen dans le bulletin d’évaluation du modèle. Utilisez la clé referenceResponse pour spécifier la réponse de vérité terrain à laquelle vos travailleurs peuvent faire référence pendant l’évaluation.

Dans l’interface utilisateur des travailleurs, ce que vous spécifiez pour prompt et referenceResponse est visible de vos travailleurs humains.

Voici un exemple de jeu de données personnalisé qui contient 6 entrées et utilise le format de ligne JSON.


{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

L’exemple suivant est une entrée unique développée dans un souci de clarté


{
    "prompt": "What is high intensity interval training?",
    "category": "Fitness",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Jeux de données de requêtes intégrés

Instructions à l’intention des travailleurs