Guida alla compatibilità di formato dei dati

Questa guida descrive i tipi di formato dei dati compatibili con i processi di elaborazione di SageMaker Clarify. I tipi di formati di dati supportati includono le estensioni dei file, la struttura dei dati e i requisiti o le restrizioni specifici per i set di dati tabulari, di immagini e di serie temporali. La guida mostra anche come verificare se il set di dati è conforme a questi requisiti.

Ad alto livello, il processo di elaborazione di SageMaker Clarify segue il modello di input-processo-output per calcolare le metriche di distorsione e le attribuzioni di funzionalità. Per i dettagli, consulta gli esempi seguenti.

L'input per il processo di elaborazione di Clarify è costituito da quanto segue: SageMaker

Il set di dati da analizzare.
La configurazione dell'analisi Per ulteriori informazioni su come configurare un'analisi, vedereFile di configurazione dell'analisi.

Durante la fase di elaborazione, SageMaker Clarify calcola le metriche di distorsione e l'attribuzione delle funzionalità. Il processo di elaborazione di SageMaker Clarify completa i seguenti passaggi nel backend:

Il processo di elaborazione SageMaker Clarify analizza la configurazione dell'analisi e carica il set di dati.
Per calcolare i parametri di bias e le attribuzioni delle funzionalità post-addestramento, il processo richiede previsioni basate sul modello. Il processo di elaborazione SageMaker Clarify serializza i dati e li invia come richiesta al modello che viene distribuito su un endpoint di inferenza in tempo reale di intelligenza artificiale. SageMaker Successivamente, il processo di elaborazione di SageMaker Clarify estrae le previsioni dalla risposta.
Il processo di elaborazione di SageMaker Clarify esegue l'analisi delle distorsioni e della spiegabilità, quindi produce i risultati.

Per ulteriori informazioni, consulta Come funzionano i lavori di elaborazione di SageMaker Clarify.

Il parametro utilizzato per specificare il formato dei dati dipende da dove i dati vengono utilizzati nel flusso di elaborazione, come mostrato in seguito:

Per un set di dati di input, utilizza il parametro dataset_type per specificare il formato o il tipo MIME.
Per una richiesta a un endpoint, utilizza il parametro content_type per specificare il formato.
Per una risposta a un endpoint, utilizza il parametro accept_type per specificare il formato.

Il set di dati di input, la richiesta e la risposta da e verso l'endpoint non richiedono lo stesso formato. Ad esempio, è possibile utilizzare un set di dati Parquet con un payload di richiesta CSV e un payload di risposta JSON Lines, date le condizioni descritte in seguito.

L'analisi è configurata correttamente.
Il modello supporta i formati di richiesta e risposta.

Nota

Se accept_type vengono forniti content_type o meno, il contenitore SageMaker Clarify deduce e. content_type accept_type

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

File di configurazione dell'analisi

Dati tabulari