Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Sources de données personnalisées
Cette page explique comment créer une classe de source de données personnalisée et montre quelques exemples d'utilisation. Avec les sources de données personnalisées, vous pouvez utiliser le SDK SageMaker AI pour Python ( APIs Boto3) fourni de la même manière que si vous SageMaker utilisiez les sources de données fournies par Amazon Feature Store.
Pour utiliser une source de données personnalisée afin de transformer et d'ingérer des données dans un groupe de fonctionnalités à l'aide de la fonctionnalisation, vous devez étendre la classe PySparkDataSource
avec la fonction et les membres de classe suivants.
-
data_source_name
(str) : nom arbitraire de la source de données. Par exemple, Amazon Redshift, Snowflake ou un ARN de catalogue Glue. -
data_source_unique_id
(str) : identifiant unique qui fait référence à la ressource spécifique à laquelle vous accédez. Par exemple, nom de table, ARN de table DDB, préfixe Amazon S3. Toute utilisation du mêmedata_source_unique_id
dans les sources de données personnalisées sera associée à la même source de données dans la vue de la lignée. La lignée inclut des informations sur le code d'exécution d'un flux de travail de fonctionnalisation, les sources de données utilisées et la manière dont elles sont ingérées dans le groupe de fonctionnalités ou la fonctionnalité. Pour plus d'informations sur l'affichage du lignage d'un groupe de fonctionnalités dans Studio, consultezAfficher le lignage depuis la console. -
read_data
(func) : méthode utilisée pour se connecter à l'intégrateur de fonctionnalités. Renvoie un bloc de données Spark. Pour obtenir des exemples, consultez Exemples de sources de données personnalisées.
data_source_name
et data_source_unique_id
sont utilisés pour identifier de manière unique votre entité de lignée. Voici un exemple de classe de sources de données personnalisées nommé CustomDataSource
.
from sagemaker.feature_store.feature_processor import PySparkDataSource from pyspark.sql import DataFrame class CustomDataSource(PySparkDataSource): data_source_name = "
custom-data-source-name
" data_source_unique_id = "custom-data-source-id
" def read_data(self, parameter, spark) -> DataFrame:your own code here to read data into a Spark dataframe
return dataframe