Configura il canale di immissione dei dati per utilizzare Amazon FSx for Lustre - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configura il canale di immissione dei dati per utilizzare Amazon FSx for Lustre

Scopri come utilizzare Amazon FSx for Lustre come fonte di dati per una maggiore velocità di trasmissione e una formazione più rapida riducendo i tempi di caricamento dei dati.

Nota

Quando utilizzi istanze abilitate per EFA come P4d e P3dn, assicurati di impostare le regole di input e output appropriate nel gruppo di sicurezza. In particolare, l'apertura di queste porte è necessaria per consentire all' SageMaker IA di accedere al FSx file system di Amazon durante il processo di formazione. Per ulteriori informazioni, vedi Controllo degli accessi al file system con Amazon VPC.

Sincronizza Amazon S3 e Amazon for Lustre FSx

Per collegare Amazon S3 ad Amazon FSx for Lustre e caricare i set di dati di formazione, procedi come segue.

  1. Prepara il tuo set di dati e caricalo in un bucket Amazon S3. Ad esempio, supponiamo che i percorsi Amazon S3 per un set di dati di addestramento e un set di dati di test siano nel formato seguente.

    s3://amzn-s3-demo-bucket/data/train s3://amzn-s3-demo-bucket/data/test
  2. Per creare un file system FSx for Lustre collegato al bucket Amazon S3 con i dati di addestramento, segui i passaggi indicati in Collegamento del file system a un bucket Amazon S3 nella Guida per l'utente di Amazon for Lustre. FSx Assicurati di aggiungere un endpoint al tuo VPC che consenta l'accesso ad Amazon S3. Per ulteriori informazioni, consulta Creazione di un endpoint VPC Amazon S3. Quando specifichi il percorso del repository di dati, fornisci l'URI del bucket Amazon S3 della cartella che contiene i tuoi set di dati. Ad esempio, in base ai percorsi S3 di esempio riportati nella fase 1, il percorso del repository di dati dovrebbe essere il seguente.

    s3://amzn-s3-demo-bucket/data
  3. Dopo aver creato il file system FSx for Lustre, controlla le informazioni di configurazione eseguendo i seguenti comandi.

    aws fsx describe-file-systems && \ aws fsx describe-data-repository-association

    Questi comandi restituiscono FileSystemId, MountName, FileSystemPath e DataRepositoryPath. Ad esempio, gli output dovrebbero essere simili a quelli riportati di seguito.

    # Output of aws fsx describe-file-systems "FileSystemId": "fs-0123456789abcdef0" "MountName": "1234abcd" # Output of aws fsx describe-data-repository-association "FileSystemPath": "/ns1", "DataRepositoryPath": "s3://amzn-s3-demo-bucket/data/"

    Una volta completata la sincronizzazione tra Amazon S3 e Amazon FSx , i set di dati vengono salvati in Amazon FSx nelle seguenti directory.

    /ns1/train # synced with s3://amzn-s3-demo-bucket/data/train /ns1/test # synced with s3://amzn-s3-demo-bucket/data/test

Imposta il percorso FSx del file system Amazon come canale di input dei dati per la SageMaker formazione

Le seguenti procedure illustrano il processo di impostazione del FSx file system Amazon come origine dati per i lavori di SageMaker formazione.

Using the SageMaker Python SDK

Per impostare correttamente il FSx file system Amazon come fonte di dati, configura le classi di stima SageMaker AI e FileSystemInput utilizza le seguenti istruzioni.

  1. Configura un oggetto FileSystemInput di classe.

    from sagemaker.inputs import FileSystemInput train_fs = FileSystemInput( file_system_id="fs-0123456789abcdef0", file_system_type="FSxLustre", directory_path="/1234abcd/ns1/", file_system_access_mode="ro", )
    Suggerimento

    Quando lo specifichidirectory_path, assicurati di fornire il percorso del FSx file system Amazon che inizia conMountName.

  2. Configura uno stimatore SageMaker AI con la configurazione VPC utilizzata per il file system FSx Amazon.

    from sagemaker.estimator import Estimator estimator = Estimator( ... role="your-iam-role-with-access-to-your-fsx", subnets=["subnet-id"], # Should be the same as the subnet used for Amazon FSx security_group_ids="security-group-id" )

    Assicurati che il ruolo IAM per il lavoro di SageMaker formazione disponga delle autorizzazioni per accedere e leggere da Amazon FSx.

  3. Avvia il processo di formazione eseguendo il metodo estimator.fit con il file system Amazon FSx.

    estimator.fit(train_fs)

Per trovare altri esempi di codice, consulta Usare i file system come input di addestramento nella documentazione di SageMaker Python SDK.

Using the SageMaker AI CreateTrainingJob API

Come parte della CreateTrainingJobrichiesta JSON, configura come segue. InputDataConfig

"InputDataConfig": [ { "ChannelName": "string", "DataSource": { "FileSystemDataSource": { "DirectoryPath": "/1234abcd/ns1/", "FileSystemAccessMode": "ro", "FileSystemId": "fs-0123456789abcdef0", "FileSystemType": "FSxLustre" } } } ],
Suggerimento

Quando lo specifichiDirectoryPath, assicurati di fornire il percorso del FSx file system Amazon che inizia conMountName.