Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
La pagina seguente descrive i formati di richiesta e risposta di inferenza per il MXNet modello Amazon SageMaker AI Object Detection.
Formato della richiesta
Esegui la query a un modello addestrato utilizzando l'endpoint del modello. L'endpoint accetta i formati di immagine .jpg e .png con i tipi di contenuto image/jpeg
e image/png
.
Formati della risposta
La risposta è l'indice di classe con un punteggio di confidenza e le coordinate del riquadro di delimitazione per tutti gli oggetti all'interno dell'immagine codificata in formato. JSON Di seguito è riportato un esempio di file .json di risposta:
{"prediction":[
[4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244],
[0.0, 0.73376623392105103, 0.5714187026023865, 0.40427327156066895, 0.827075183391571, 0.9712159633636475],
[4.0, 0.32643985450267792, 0.3677481412887573, 0.034883320331573486, 0.6318609714508057, 0.5967587828636169],
[8.0, 0.22552496790885925, 0.6152569651603699, 0.5722782611846924, 0.882301390171051, 0.8985623121261597],
[3.0, 0.42260299175977707, 0.019305512309074402, 0.08386176824569702, 0.39093565940856934, 0.9574796557426453]
]}
Ogni riga in questo file .json contiene un array che rappresenta un oggetto rilevato. Ciascuno di questi array di oggetti è costituito da un elenco di sei numeri. Il primo numero è l'etichetta di classe prevista. Il secondo numero è il punteggio di attendibilità associato per il rilevamento. Gli ultimi quattro numeri rappresentano le coordinate del riquadro di delimitazione [xmin, ymin, xmax, ymax]. Questi indici degli angoli del riquadro di delimitazione di output sono normalizzati dalla dimensione generale dell'immagine. Tieni presente che questa codifica è diversa da quella utilizzata dal formato .json di input. Ad esempio, nella prima voce del risultato di rilevamento, 0.3088374733924866 è la coordinata sinistra (coordinata x dell'angolo superiore sinistro) del riquadro di delimitazione come rapporto della larghezza dell'immagine complessiva, 0.07030484080314636 è la coordinata superiore (coordinata y dell'angolo superiore sinistro) del riquadro di delimitazione come rapporto dell'altezza dell'immagine complessiva, 0.7110607028007507 è la coordinata destra (coordinata x dell'angolo in basso a destra) del riquadro di delimitazione come rapporto della larghezza dell'immagine complessiva e 0.9345266819000244 è il coordinata inferiore (coordinata y dell'angolo inferiore destro) del riquadro di delimitazione come rapporto dell'altezza dell'immagine complessiva.
Per evitare risultati di rilevamento inaffidabili, è possibile filtrare i risultati del rilevamento con bassi punteggi di attendibilità. Nel notebook di esempio per il rilevamento di oggetti
Per la trasformazione in batch, la risposta è in JSON formato, dove il formato è identico al JSON formato descritto sopra. I risultati del rilevamento di ogni immagine sono rappresentati come JSON file. Per esempio:
{"prediction": [[label_id, confidence_score, xmin, ymin, xmax, ymax], [label_id, confidence_score, xmin, ymin, xmax, ymax]]}
Per ulteriori dettagli sull’addestramento e sull'inferenza, consulta Notebook di esempio di rilevamento oggetti.
OUTPUT: Formato JSON di risposta
accept: application/json;annotation=1
{
"image_size": [
{
"width": 500,
"height": 400,
"depth": 3
}
],
"annotations": [
{
"class_id": 0,
"score": 0.943,
"left": 111,
"top": 134,
"width": 61,
"height": 128
},
{
"class_id": 0,
"score": 0.0013,
"left": 161,
"top": 250,
"width": 79,
"height": 143
},
{
"class_id": 1,
"score": 0.0133,
"left": 101,
"top": 185,
"width": 42,
"height": 130
}
]
}