Formats de demande et de réponse de détection d'objets - Amazon SageMaker

Formats de demande et de réponse de détection d'objets

Format des demandes

Interrogez un modèle entraîné à l'aide du point de terminaison du modèle. Le point de terminaison accepte les formats d'image .png et .jpg avec les types de contenu image/jpeg et image/png.

Formats de réponse

La réponse est l'index de classe avec un score de fiabilité et les coordonnées du cadre de délimitation pour tous les objets de l'image encodée au format JSON. Voici un exemple de fichier de réponse .json :

{"prediction":[ [4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244], [0.0, 0.73376623392105103, 0.5714187026023865, 0.40427327156066895, 0.827075183391571, 0.9712159633636475], [4.0, 0.32643985450267792, 0.3677481412887573, 0.034883320331573486, 0.6318609714508057, 0.5967587828636169], [8.0, 0.22552496790885925, 0.6152569651603699, 0.5722782611846924, 0.882301390171051, 0.8985623121261597], [3.0, 0.42260299175977707, 0.019305512309074402, 0.08386176824569702, 0.39093565940856934, 0.9574796557426453] ]}

Chaque ligne de ce fichier .json contient un tableau qui représente un objet détecté. Chacun de ces tableaux d'objets se compose d'une liste de six nombres. Le premier nombre correspond à l'étiquette de classe prédite. Le deuxième nombre est le score de fiabilité associée pour la détection. Les quatre derniers nombres représentent les coordonnées du cadre de délimitation [xmin, ymin, xmax, ymax]. Ces index d'angle du cadre de délimitation de sortie sont normalisées par la taille globale de l'image. Notez que ce codage est différent de celui utilisé par le format .json d'entrée. Par exemple, dans la première entrée du résultat de la détection, 0,3088374733924866 est la coordonnée gauche (coordonnée x du coin supérieur gauche) du cadre de délimitation sous la forme d'un rapport de la largeur d'image globale, 0,07030484080314636 est la coordonnée supérieure (coordonnée y du coin supérieur gauche) du cadre de délimitation sous la forme d'un rapport de la hauteur d'image globale, 0,7110607028007507 est la coordonnée droite (coordonnée x du coin inférieur droit) du cadre de délimitation sous la forme d'un rapport de la largeur d'image globale et 0,9345266819000244 est la coordonnée inférieure (coordonnée y du coin inférieur droit) du cadre de délimitation sous la forme d'un rapport de la hauteur d'image globale.

Pour éviter des résultats de détection peu fiables, il se peut que vous souhaitiez filtrer ces résultats avec des scores de fiabilité faibles. Dans le bloc-notes d'exemples de détection d'objets, nous fournissons des exemples de scripts qui utilisent un seuil pour éliminer les détections de faible confiance et pour tracer des boîtes de délimitation sur les images originales.

Pour la transformation des lots, la réponse est au format JSON, où le format est identique au format JSON décrit ci-dessus. Les résultats de détection de chaque image sont représentés sous la forme d'un fichier JSON. Par exemple :

{"prediction": [[label_id, confidence_score, xmin, ymin, xmax, ymax], [label_id, confidence_score, xmin, ymin, xmax, ymax]]}

Pour plus d'informations sur l'entraînement et l'inférence, consultez Exemples de blocs-notes de détection d'objet.

SORTIE : format de réponse JSON

accept: application/json;annotation=1

{ "image_size": [ { "width": 500, "height": 400, "depth": 3 } ], "annotations": [ { "class_id": 0, "score": 0.943, "left": 111, "top": 134, "width": 61, "height": 128 }, { "class_id": 0, "score": 0.0013, "left": 161, "top": 250, "width": 79, "height": 143 }, { "class_id": 1, "score": 0.0133, "left": 101, "top": 185, "width": 42, "height": 130 } ] }