Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Les données tabulaires font référence à des données qui peuvent être chargées dans un bloc de données bidimensionnel. Dans ce bloc, chaque ligne représente un enregistrement et chaque enregistrement comporte une ou plusieurs colonnes. Les valeurs de chaque cellule du bloc de données peuvent être de type numérique, catégoriel ou texte.
Prérequis relatifs aux jeux de données tabulaires
Avant l'analyse, toutes les étapes de prétraitement nécessaires devraient déjà avoir été appliquées à votre jeu de données. Cela inclut le nettoyage des données ou l'ingénierie des fonctionnalités.
Vous pouvez fournir un ou plusieurs jeux de données. Si vous fournissez plusieurs ensembles de données, utilisez ce qui suit pour les identifier dans le cadre de la tâche de traitement SageMaker Clarify.
-
Utilisez une configuration ProcessingInputnommée
dataset
ou la configuration d'analysedataset_uri
pour spécifier le jeu de données principal. Pour plus d'informationsdataset_uri
, consultez la liste des paramètres dansFichiers de configuration d'analyse. -
Utilisez le paramètre
baseline
fourni dans le fichier de configuration d'analyse. Le jeu de données de référence est requis pour l'analyse SHAP. Pour plus d'informations sur le fichier de configuration d'analyse, notamment des exemples, consultezFichiers de configuration d'analyse.
Le tableau suivant répertorie les formats de données pris en charge, leurs extensions de fichier et les types MIME.
Format de données | Extension de fichier | Type MIME |
---|---|---|
CSV |
csv |
|
JSON Lines |
jsonl |
|
JSON |
json |
|
Parquet |
parquet |
"application/x-parquet" |
Les sections suivantes présentent des exemples de jeux de données tabulaires aux formats CSV, JSON Lines et Apache Parquet.
La tâche de traitement SageMaker Clarify est conçue pour charger des fichiers de données CSV dans le dialecte csv .excel.\n
et \r
.
Pour des raisons de compatibilité, tous les fichiers de données CSV fournis à la tâche de traitement SageMaker Clarify doivent être codés en UTF-8.
Si votre jeu de données ne contient pas de ligne d'en-têtes, procédez comme suit :
-
Définissez l'étiquette de configuration d'analyse sur l'index
0
. Cela signifie que la première colonne est l'étiquette de vérité terrain. -
Si le paramètre
headers
est défini, définissezlabel
sur l'en-tête de la colonne d'étiquettes pour indiquer l'emplacement de la colonne d'étiquettes. Toutes les autres colonnes sont désignées comme des fonctionnalités.Voici un exemple de jeu de données qui ne contient pas de ligne d'en-têtes.
1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
Si vos données contiennent une ligne d'en-têtes, définissez le paramètre label
sur l'index 0
. Pour indiquer l'emplacement de la colonne d'étiquettes, utilisez l'en-tête de l'étiquette de vérité terrain Label
. Toutes les autres colonnes sont désignées comme des fonctionnalités.
Voici un exemple de jeu de données qui contient une ligne d'en-têtes.
Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
Le format JSON est un format flexible permettant de représenter des données structurées qui contiennent un niveau quelconque de complexité. La prise en charge de JSON par SageMaker Clarify n'est limitée à aucun format spécifique et permet donc des formats de données plus flexibles par rapport aux ensembles de données au format CSV ou JSON Lines. Ce guide explique comment définir une configuration d'analyse pour des données tabulaires au format JSON.
Note
Pour garantir la compatibilité, tous les fichiers de données JSON fournis à la tâche de traitement SageMaker Clarify doivent être codés en UTF-8.
Voici un exemple de données d'entrée avec des enregistrements contenant une clé de niveau supérieur, une liste de fonctionnalités et une étiquette.
[
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
...
]
Un exemple de configuration d'analyse pour l'exemple de jeu de données en entrée précédent doit définir les paramètres suivants :
-
Le
label
paramètre doit utiliser l'JMESPathexpression [*].label
pour extraire l'étiquette de vérité fondamentale pour chaque enregistrement de l'ensemble de données. L' JMESPath expression doit produire une liste d'étiquettes où le i the label correspond au i the record. -
Le
features
paramètre doit utiliser l' JMESPathexpression[*].features
pour extraire un tableau d'entités pour chaque enregistrement de l'ensemble de données. L' JMESPath expression doit produire un tableau ou une matrice 2D dans lequel la première ligne contient les valeurs des caractéristiques correspondant à l'enregistrement.Voici un exemple de données d'entrée avec des enregistrements contenant une clé de niveau supérieur et une clé imbriquée contenant une liste de fonctionnalités et des étiquettes pour chaque enregistrement.
{
"data": [
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
]
}
Un exemple de configuration d'analyse pour l'exemple de jeu de données en entrée précédent doit définir les paramètres suivants :
-
Le
label
paramètre utilise l'JMESPathexpression data[*].label
pour extraire l'étiquette de vérité fondamentale pour chaque enregistrement de l'ensemble de données. L' JMESPath expression doit produire une liste d'étiquettes où le i the label est destiné au i the record. -
Le
features
paramètre utilise l' JMESPath expressiondata[*].features
pour extraire le tableau d'entités, pour chaque enregistrement de l'ensemble de données. L' JMESPath expression doit produire un tableau ou une matrice 2D dans lequel la première ligne contient les valeurs des caractéristiques du premier enregistrement.
JSON Lines est un format de texte permettant de représenter des données structurées où chaque ligne est un objet JSON valide. Actuellement, les tâches de traitement SageMaker Clarify ne prennent en charge que les lignes JSON au format SageMaker AI Dense. Pour respecter le format requis, toutes les fonctionnalités d'un enregistrement doivent être répertoriées dans un tableau JSON unique. Pour plus d’informations sur les lignes JSON, consultez Format de demande JSONLINES.
Note
Tous les fichiers de données JSON Lines fournis à la tâche de traitement SageMaker Clarify doivent être codés en UTF-8 pour garantir la compatibilité.
Voici un exemple de définition d'une configuration d'analyse pour un enregistrement contenant une clé de niveau supérieur et une liste d'éléments.
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...
La configuration d'analyse pour l'exemple de jeu de données précédent doit définir les paramètres suivants :
-
Pour indiquer l'emplacement de l'étiquette de vérité fondamentale, le paramètre
label
doit être défini sur l' JMESPath expressionlabel
. -
Pour indiquer l'emplacement du réseau de fonctionnalités, le paramètre
features
doit être défini sur l' JMESPath expressionfeatures
.
Voici un exemple de définition d'une configuration d'analyse pour un enregistrement contenant une clé de niveau supérieur et une clé imbriquée contenant une liste d'éléments.
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...
La configuration d'analyse pour l'exemple de jeu de données précédent doit définir les paramètres suivants :
-
Le paramètre
label
doit être défini sur l' JMESPathexpression indiquantdata.label
l'emplacement de l'étiquette de vérité fondamentale. -
Le paramètre
features
doit être défini sur l' JMESPathexpressiondata.features
pour indiquer l'emplacement du réseau d'entités.
Parquet1
à
Étant donné que SageMaker les tâches de traitement Clarify ne prennent pas en charge les demandes de point de terminaison ou les réponses de point de terminaison au format Parquet, vous devez spécifier le format de données de la demande de point de terminaison en définissant le paramètre de configuration content_type
d'analyse sur un format pris en charge. Pour plus d'informations, consultez content_type
dans Fichiers de configuration d'analyse.
Les données Parquet doivent avoir des noms de colonnes formatés sous forme de chaînes. Utilisez le paramètre label
de configuration d'analyse pour définir le nom de la colonne d'étiquettes afin d'indiquer l'emplacement des étiquettes de vérité terrain. Toutes les autres colonnes sont désignées comme des fonctionnalités.