Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Guida alla compatibilità di formato dei dati
Questa guida descrive i tipi di formato dei dati compatibili con i processi di elaborazione di SageMaker Clarify. I tipi di formati di dati supportati includono le estensioni dei file, la struttura dei dati e i requisiti o le restrizioni specifici per i set di dati tabulari, di immagini e di serie temporali. La guida mostra anche come verificare se il set di dati è conforme a questi requisiti.
Ad alto livello, il processo di elaborazione di SageMaker Clarify segue il modello di input-processo-output per calcolare le metriche di distorsione e le attribuzioni di funzionalità. Per i dettagli, consulta gli esempi seguenti.
L'input per il processo di elaborazione di Clarify è costituito da quanto segue: SageMaker
-
Il set di dati da analizzare.
-
La configurazione dell'analisi Per ulteriori informazioni su come configurare un'analisi, vedereFile di configurazione dell'analisi.
Durante la fase di elaborazione, SageMaker Clarify calcola le metriche di distorsione e l'attribuzione delle funzionalità. Il processo di elaborazione di SageMaker Clarify completa i seguenti passaggi nel backend:
-
Il processo di elaborazione SageMaker Clarify analizza la configurazione dell'analisi e carica il set di dati.
-
Per calcolare i parametri di bias e le attribuzioni delle funzionalità post-addestramento, il processo richiede previsioni basate sul modello. Il processo di elaborazione SageMaker Clarify serializza i dati e li invia come richiesta al modello che viene distribuito su un endpoint di inferenza in tempo reale di intelligenza artificiale. SageMaker Successivamente, il processo di elaborazione di SageMaker Clarify estrae le previsioni dalla risposta.
-
Il processo di elaborazione di SageMaker Clarify esegue l'analisi delle distorsioni e della spiegabilità, quindi produce i risultati.
Per ulteriori informazioni, consulta Come funzionano i lavori di elaborazione di SageMaker Clarify.
Il parametro utilizzato per specificare il formato dei dati dipende da dove i dati vengono utilizzati nel flusso di elaborazione, come mostrato in seguito:
-
Per un set di dati di input, utilizza il parametro
dataset_type
per specificare il formato o il tipo MIME. -
Per una richiesta a un endpoint, utilizza il parametro
content_type
per specificare il formato. -
Per una risposta a un endpoint, utilizza il parametro
accept_type
per specificare il formato.
Il set di dati di input, la richiesta e la risposta da e verso l'endpoint non richiedono lo stesso formato. Ad esempio, è possibile utilizzare un set di dati Parquet con un payload di richiesta CSV e un payload di risposta JSON Lines, date le condizioni descritte in seguito.
-
L'analisi è configurata correttamente.
-
Il modello supporta i formati di richiesta e risposta.
Nota
Se accept_type
vengono forniti content_type
o meno, il contenitore SageMaker Clarify deduce e. content_type
accept_type