Prérequis relatifs aux jeux de données tabulaires

Données tabulaires

Les données tabulaires font référence à des données qui peuvent être chargées dans un bloc de données bidimensionnel. Dans ce bloc, chaque ligne représente un enregistrement et chaque enregistrement comporte une ou plusieurs colonnes. Les valeurs de chaque cellule du bloc de données peuvent être de type numérique, catégoriel ou texte.

Prérequis relatifs aux jeux de données tabulaires

Avant l'analyse, toutes les étapes de prétraitement nécessaires devraient déjà avoir été appliquées à votre jeu de données. Cela inclut le nettoyage des données ou l'ingénierie des fonctionnalités.

Vous pouvez fournir un ou plusieurs jeux de données. Si vous fournissez plusieurs ensembles de données, utilisez ce qui suit pour les identifier dans le cadre de la tâche de traitement SageMaker Clarify.

Utilisez une configuration ProcessingInputnommée dataset ou la configuration d'analyse dataset_uri pour spécifier le jeu de données principal. Pour plus d'informations surdataset_uri, consultez la liste des paramètres dansFichiers de configuration d'analyse.
Utilisez le paramètre baseline fourni dans le fichier de configuration d'analyse. Le jeu de données de référence est requis pour l'analyse SHAP. Pour plus d'informations sur le fichier de configuration d'analyse, notamment des exemples, consultezFichiers de configuration d'analyse.

Le tableau suivant répertorie les formats de données pris en charge, leurs extensions de fichier et les types MIME.

Format de données	Extension de fichier	Type MIME
CSV	csv	`text/csv`
JSON Lines	jsonl	`application/jsonlines`
JSON	json	`application/json`
Parquet	parquet	"application/x-parquet"

Les sections suivantes présentent des exemples de jeux de données tabulaires aux formats CSV, JSON Lines et Apache Parquet.

La tâche de traitement SageMaker Clarify est conçue pour charger des fichiers de données CSV dans le dialecte csv .excel. Toutefois, il est suffisamment flexible pour prendre en charge d'autres délimiteurs de ligne, notamment \n et \r.

Pour des raisons de compatibilité, tous les fichiers de données CSV fournis à la tâche de traitement SageMaker Clarify doivent être codés en UTF-8.

Si votre jeu de données ne contient pas de ligne d'en-têtes, procédez comme suit :

Définissez l'étiquette de configuration d'analyse sur l'index 0. Cela signifie que la première colonne est l'étiquette de vérité terrain.
Si le paramètre headers est défini, définissez label sur l'en-tête de la colonne d'étiquettes pour indiquer l'emplacement de la colonne d'étiquettes. Toutes les autres colonnes sont désignées comme des fonctionnalités.

Voici un exemple de jeu de données qui ne contient pas de ligne d'en-têtes.
```
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
```

Si vos données contiennent une ligne d'en-têtes, définissez le paramètre label sur l'index 0. Pour indiquer l'emplacement de la colonne d'étiquettes, utilisez l'en-tête de l'étiquette de vérité terrain Label. Toutes les autres colonnes sont désignées comme des fonctionnalités.

Voici un exemple de jeu de données qui contient une ligne d'en-têtes.


Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...

Le format JSON est un format flexible permettant de représenter des données structurées qui contiennent un niveau quelconque de complexité. La prise en charge de JSON par SageMaker Clarify n'est limitée à aucun format spécifique et permet donc des formats de données plus flexibles par rapport aux ensembles de données au format CSV ou JSON Lines. Ce guide explique comment définir une configuration d'analyse pour des données tabulaires au format JSON.

Note

Pour garantir la compatibilité, tous les fichiers de données JSON fournis à la tâche de traitement SageMaker Clarify doivent être codés en UTF-8.

Voici un exemple de données d'entrée avec des enregistrements contenant une clé de niveau supérieur, une liste de fonctionnalités et une étiquette.


[
    {"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
    {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
    ...
]

Un exemple de configuration d'analyse pour l'exemple de jeu de données en entrée précédent doit définir les paramètres suivants :

Le label paramètre doit utiliser l'JMESPathexpression [*].label pour extraire l'étiquette de vérité fondamentale pour chaque enregistrement de l'ensemble de données. L' JMESPath expression doit produire une liste d'étiquettes où le i ^the label correspond au i ^the record.
Le features paramètre doit utiliser l' JMESPathexpression [*].features pour extraire un tableau d'entités pour chaque enregistrement de l'ensemble de données. L' JMESPath expression doit produire un tableau ou une matrice 2D dans lequel ^la première ligne contient les valeurs des caractéristiques correspondant à ^l'enregistrement.

Voici un exemple de données d'entrée avec des enregistrements contenant une clé de niveau supérieur et une clé imbriquée contenant une liste de fonctionnalités et des étiquettes pour chaque enregistrement.


{
    "data": [
        {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
        {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
    ]
}

Un exemple de configuration d'analyse pour l'exemple de jeu de données en entrée précédent doit définir les paramètres suivants :

Le label paramètre utilise l'JMESPathexpression data[*].label pour extraire l'étiquette de vérité fondamentale pour chaque enregistrement de l'ensemble de données. L' JMESPath expression doit produire une liste d'étiquettes où le i ^the label est destiné au i ^the record.
Le features paramètre utilise l' JMESPath expression data[*].features pour extraire le tableau d'entités, pour chaque enregistrement de l'ensemble de données. ^{L' JMESPath expression doit produire un tableau ou une matrice 2D dont ^la première ligne contient les valeurs des caractéristiques du premier enregistrement.}

JSON Lines est un format de texte permettant de représenter des données structurées où chaque ligne est un objet JSON valide. Actuellement, les tâches de traitement SageMaker Clarify ne prennent en charge que les lignes JSON au format SageMaker AI Dense. Pour respecter le format requis, toutes les fonctionnalités d'un enregistrement doivent être répertoriées dans un tableau JSON unique. Pour plus d’informations sur les lignes JSON, consultez Format de demande JSONLINES.

Note

Tous les fichiers de données JSON Lines fournis à la tâche de traitement SageMaker Clarify doivent être codés en UTF-8 pour garantir la compatibilité.

Voici un exemple de définition d'une configuration d'analyse pour un enregistrement contenant une clé de niveau supérieur et une liste d'éléments.


{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...

La configuration d'analyse pour l'exemple de jeu de données précédent doit définir les paramètres suivants :

Pour indiquer l'emplacement de l'étiquette de vérité fondamentale, le paramètre label doit être défini sur l' JMESPath expressionlabel.
Pour indiquer l'emplacement du réseau de fonctionnalités, le paramètre features doit être défini sur l' JMESPath expressionfeatures.

Voici un exemple de définition d'une configuration d'analyse pour un enregistrement contenant une clé de niveau supérieur et une clé imbriquée contenant une liste d'éléments.


{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...

La configuration d'analyse pour l'exemple de jeu de données précédent doit définir les paramètres suivants :

Le paramètre label doit être défini sur l' JMESPathexpression indiquant data.label l'emplacement de l'étiquette de vérité fondamentale.
Le paramètre features doit être défini sur l' JMESPathexpression data.features pour indiquer l'emplacement du réseau d'entités.

Parquet est un format de données binaire orienté colonne. Actuellement, les tâches de traitement SageMaker Clarify prennent en charge le chargement des fichiers de données Parquet uniquement lorsque le nombre d'instances de traitement est égal 1 à

Étant donné que SageMaker les tâches de traitement Clarify ne prennent pas en charge les demandes de point de terminaison ou les réponses de point de terminaison au format Parquet, vous devez spécifier le format de données de la demande de point de terminaison en définissant le paramètre de configuration content_type d'analyse sur un format pris en charge. Pour plus d'informations, consultez content_type dans Fichiers de configuration d'analyse.

Les données Parquet doivent avoir des noms de colonnes formatés sous forme de chaînes. Utilisez le paramètre label de configuration d'analyse pour définir le nom de la colonne d'étiquettes afin d'indiquer l'emplacement des étiquettes de vérité terrain. Toutes les autres colonnes sont désignées comme des fonctionnalités.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Guide de compatibilité des formats de données

Demandes du point de terminaison pour des données tabulaires