Sources de données personnalisées

Cette page explique comment créer une classe de source de données personnalisée et montre quelques exemples d'utilisation. Avec les sources de données personnalisées, vous pouvez utiliser le SDK SageMaker AI pour Python ( APIs Boto3) fourni de la même manière que si vous SageMaker utilisiez les sources de données fournies par Amazon Feature Store.

Pour utiliser une source de données personnalisée afin de transformer et d'ingérer des données dans un groupe de fonctionnalités à l'aide de la fonctionnalisation, vous devez étendre la classe PySparkDataSource avec la fonction et les membres de classe suivants.

data_source_name (str) : nom arbitraire de la source de données. Par exemple, Amazon Redshift, Snowflake ou un ARN de catalogue Glue.
data_source_unique_id (str) : identifiant unique qui fait référence à la ressource spécifique à laquelle vous accédez. Par exemple, nom de table, ARN de table DDB, préfixe Amazon S3. Toute utilisation du même data_source_unique_id dans les sources de données personnalisées sera associée à la même source de données dans la vue de la lignée. La lignée inclut des informations sur le code d'exécution d'un flux de travail de fonctionnalisation, les sources de données utilisées et la manière dont elles sont ingérées dans le groupe de fonctionnalités ou la fonctionnalité. Pour plus d'informations sur l'affichage du lignage d'un groupe de fonctionnalités dans Studio, consultezAfficher le lignage depuis la console.
read_data (func) : méthode utilisée pour se connecter à l'intégrateur de fonctionnalités. Renvoie un bloc de données Spark. Pour obtenir des exemples, consultez Exemples de sources de données personnalisées.

data_source_name et data_source_unique_id sont utilisés pour identifier de manière unique votre entité de lignée. Voici un exemple de classe de sources de données personnalisées nommé CustomDataSource.


from sagemaker.feature_store.feature_processor import PySparkDataSource
from pyspark.sql import DataFrame

class CustomDataSource(PySparkDataSource):
    
    data_source_name = "custom-data-source-name"
    data_source_unique_id = "custom-data-source-id"
    
    def read_data(self, parameter, spark) -> DataFrame:
        your own code here to read data into a Spark dataframe
        return dataframe

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Sources de données du kit SDK d'intégrateur de fonctionnalités

Exemples de sources de données personnalisées