Configurez votre pipeline - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configurez votre pipeline

Il est conseillé d'utiliser le fichier de SageMaker configuration pour définir les valeurs par défaut du pipeline. Pour plus d'informations sur le fichier SageMaker de configuration, consultez Configuration et utilisation des valeurs par défaut avec le SageMaker Python SDK. Toute configuration ajoutée au fichier de configuration s'applique à toutes les étapes du pipeline. Si vous souhaitez remplacer les options pour l'une des étapes, fournissez de nouvelles valeurs dans les arguments du @step décorateur. La rubrique suivante décrit comment configurer un fichier de configuration.

La configuration du @step décorateur dans le fichier de configuration est identique à celle du @remote décorateur. Pour configurer le rôle du pipeline ARN et les balises du pipeline dans le fichier de configuration, utilisez la Pipeline section illustrée dans l'extrait suivant :

SchemaVersion: '1.0' SageMaker: Pipeline: RoleArn: 'arn:aws:iam::555555555555:role/IMRole' Tags: - Key: 'tag_key' Value: 'tag_value'

Pour la plupart des valeurs par défaut que vous pouvez définir dans le fichier de configuration, vous pouvez également les remplacer en transmettant de nouvelles valeurs au @step décorateur. Par exemple, vous pouvez remplacer le type d'instance défini dans le fichier de configuration pour votre étape de prétraitement, comme indiqué dans l'exemple suivant :

@step(instance_type="ml.m5.large") def preprocess(raw_data): df = pandas.read_csv(raw_data) ... return procesed_dataframe

Quelques arguments ne figurent pas dans la liste des paramètres du @step décorateur ; ils ne peuvent être configurés pour l'ensemble du pipeline que par le biais du SageMaker fichier de configuration. Ils sont listés comme suit :

  • sagemaker_session(sagemaker.session.Session) : SageMaker session sous-jacente à laquelle le service SageMaker des délégués fait appel. Si ce n'est pas spécifié, une session est créée à l'aide de la configuration par défaut suivante :

    SageMaker: PythonSDK: Modules: Session: DefaultS3Bucket: 'default_s3_bucket' DefaultS3ObjectKeyPrefix: 'key_prefix'
  • custom_file_filter(CustomFileFilter): CustomFileFilter objet qui spécifie les répertoires et fichiers locaux à inclure dans l'étape du pipeline. Si elle n'est pas spécifiée, cette valeur par défaut est. None custom_file_filterPour que cela prenne effet, vous devez IncludeLocalWorkdir régler surTrue. L'exemple suivant montre une configuration qui ignore tous les fichiers du bloc-notes, ainsi que les fichiers et répertoires nommésdata.

    SchemaVersion: '1.0' SageMaker: PythonSDK: Modules: RemoteFunction: IncludeLocalWorkDir: true CustomFileFilter: IgnoreNamePatterns: # files or directories to ignore - "*.ipynb" # all notebook files - "data" # folder or file named "data"

    Pour plus de détails sur l'utilisation IncludeLocalWorkdir avecCustomFileFilter, voirUtilisation d'un code modulaire avec le décorateur @remote.

  • s3_root_uri (str): le dossier racine Amazon S3 dans lequel sont chargées SageMaker les archives de code et les données. S'il n'est pas spécifié, le SageMaker compartiment par défaut est utilisé.

  • s3_kms_key (str): clé utilisée pour chiffrer les données d'entrée et de sortie. Vous ne pouvez configurer cet argument que dans le fichier de SageMaker configuration et il s'applique à toutes les étapes définies dans le pipeline. Si elle n'est pas spécifiée, la valeur par défaut est. None Consultez l'extrait suivant pour un exemple de configuration de KMS clé S3 :

    SchemaVersion: '1.0' SageMaker: PythonSDK: Modules: RemoteFunction: S3KmsKeyId: 's3kmskeyid' S3RootUri: 's3://amzn-s3-demo-bucket/my-project