Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configurez votre pipeline
Il est conseillé d'utiliser le fichier de SageMaker configuration pour définir les valeurs par défaut du pipeline. Pour plus d'informations sur le fichier SageMaker de configuration, consultez Configuration et utilisation des valeurs par défaut avec le SageMaker Python SDK@step
décorateur. La rubrique suivante décrit comment configurer un fichier de configuration.
La configuration du @step
décorateur dans le fichier de configuration est identique à celle du @remote
décorateur. Pour configurer le rôle du pipeline ARN et les balises du pipeline dans le fichier de configuration, utilisez la Pipeline
section illustrée dans l'extrait suivant :
SchemaVersion: '1.0' SageMaker: Pipeline: RoleArn: 'arn:aws:iam::555555555555:role/IMRole' Tags: - Key: 'tag_key' Value: 'tag_value'
Pour la plupart des valeurs par défaut que vous pouvez définir dans le fichier de configuration, vous pouvez également les remplacer en transmettant de nouvelles valeurs au @step
décorateur. Par exemple, vous pouvez remplacer le type d'instance défini dans le fichier de configuration pour votre étape de prétraitement, comme indiqué dans l'exemple suivant :
@step(instance_type="
ml.m5.large
") def preprocess(raw_data): df = pandas.read_csv(raw_data) ... return procesed_dataframe
Quelques arguments ne figurent pas dans la liste des paramètres du @step
décorateur ; ils ne peuvent être configurés pour l'ensemble du pipeline que par le biais du SageMaker fichier de configuration. Ils sont listés comme suit :
sagemaker_session
(sagemaker.session.Session
) : SageMaker session sous-jacente à laquelle le service SageMaker des délégués fait appel. Si ce n'est pas spécifié, une session est créée à l'aide de la configuration par défaut suivante :SageMaker: PythonSDK: Modules: Session: DefaultS3Bucket: 'default_s3_bucket' DefaultS3ObjectKeyPrefix: 'key_prefix'
custom_file_filter
(CustomFileFilter)
:CustomFileFilter
objet qui spécifie les répertoires et fichiers locaux à inclure dans l'étape du pipeline. Si elle n'est pas spécifiée, cette valeur par défaut est.None
custom_file_filter
Pour que cela prenne effet, vous devezIncludeLocalWorkdir
régler surTrue
. L'exemple suivant montre une configuration qui ignore tous les fichiers du bloc-notes, ainsi que les fichiers et répertoires nommésdata
.SchemaVersion: '1.0' SageMaker: PythonSDK: Modules: RemoteFunction: IncludeLocalWorkDir: true CustomFileFilter: IgnoreNamePatterns: # files or directories to ignore - "*.ipynb" # all notebook files - "data" # folder or file named "data"
Pour plus de détails sur l'utilisation
IncludeLocalWorkdir
avecCustomFileFilter
, voirUtilisation d'un code modulaire avec le décorateur @remote.s3_root_uri (str)
: le dossier racine Amazon S3 dans lequel sont chargées SageMaker les archives de code et les données. S'il n'est pas spécifié, le SageMaker compartiment par défaut est utilisé.s3_kms_key (str)
: clé utilisée pour chiffrer les données d'entrée et de sortie. Vous ne pouvez configurer cet argument que dans le fichier de SageMaker configuration et il s'applique à toutes les étapes définies dans le pipeline. Si elle n'est pas spécifiée, la valeur par défaut est.None
Consultez l'extrait suivant pour un exemple de configuration de KMS clé S3 :SchemaVersion: '1.0' SageMaker: PythonSDK: Modules: RemoteFunction: S3KmsKeyId: 's3kmskeyid' S3RootUri: 's3://amzn-s3-demo-bucket/my-project