Offri ai processi di SageMaker elaborazione l'accesso alle risorse nel tuo Amazon VPC - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Offri ai processi di SageMaker elaborazione l'accesso alle risorse nel tuo Amazon VPC

Per controllare l'accesso ai dati e ai processi di elaborazione, crea un Amazon VPC con sottoreti private. Per ulteriori informazioni sulla creazione e sulla configurazione di un VPC, consulta Nozioni di base su Amazon VPC nella Guida per l'utente di Amazon VPC.

Puoi monitorare tutto il traffico di rete in entrata e in uscita dai container di elaborazione utilizzando i log di flusso VPC. Per ulteriori informazioni, consulta Log di flusso VPC nella Guida per l'utente di Amazon VPC.

Questo documento spiega come aggiungere configurazioni di Amazon VPC per i processi di elaborazione.

Configurazione di un processo di elaborazione per l'accesso ad Amazon VPC

Puoi configurare il processo di elaborazione specificando le sottoreti e gli ID dei gruppi di sicurezza all'interno del VPC. Non devi specificare la sottorete per il container di elaborazione. Amazon estrae SageMaker automaticamente il contenitore di elaborazione da Amazon ECR. Per ulteriori informazioni su container di elaborazione, consulta Usa i processi di elaborazione per eseguire carichi di lavoro di trasformazione dei dati.

Quando crei un processo di elaborazione, puoi specificare sottoreti e gruppi di sicurezza nel tuo VPC utilizzando la SageMaker console o l'API.

Per utilizzare l'API, è necessario specificare le sottoreti e gli ID dei gruppi di sicurezza nel parametro dell'NetworkConfig.VpcConfigoperazione. CreateProcessingJob SageMaker utilizza i dettagli della sottorete e del gruppo di sicurezza per creare le interfacce di rete e le collega ai contenitori di elaborazione. Le interfacce di rete forniscono container di elaborazione con una connessione di rete all'interno del tuo VPC. Ciò consente al processo di elaborazione di connettersi alle risorse presenti nel tuo VPC.

Di seguito viene mostrato un esempio del parametro VpcConfig che includi nella tua chiamata all'operazione CreateProcessingJob:

VpcConfig: { "Subnets": [ "subnet-0123456789abcdef0", "subnet-0123456789abcdef1", "subnet-0123456789abcdef2" ], "SecurityGroupIds": [ "sg-0123456789abcdef0" ] }

Configurazione del VPC privato per l'elaborazione di SageMaker

Quando configuri il VPC privato per i SageMaker tuoi processi di elaborazione, utilizza le seguenti linee guida. Per informazioni su come configurare un VPC, consulta Utilizzo di VPC e sottoreti nella Guida per l'utente di Amazon VPC.

Verificare che le sottoreti abbiano abbastanza indirizzi IP

Le sottoreti VPC devono disporre di almeno due indirizzi IP privati per ogni istanza in un'attività di elaborazione. Per ulteriori informazioni, consulta VPC e dimensionamento delle sottoreti in IPv4 nella Guida per l'utente di Amazon VPC.

Creazione di un endpoint VPC Amazon S3

Se configuri il VPC in modo che i container di elaborazione non abbiano accesso a Internet, non possono connettersi ai bucket Amazon S3 che contengono i dati, a meno che non crei un endpoint VPC che consente l'accesso. La creazione di un endpoint VPC consente ai tuoi container di elaborazione di accedere ai bucket in cui archivi i dati. Ti consigliamo inoltre di creare una policy personalizzata che consente l'accesso ai tuoi bucket S3 solo alle richieste dal tuo VPC privato. Per ulteriori informazioni, consulta Endpoints for Amazon S3.

Per creare un endpoint VPC S3
  1. Apri alla console Amazon VPC all'indirizzo https://console.aws.amazon.com/vpc/.

  2. Nel riquadro di navigazione, selezionare Endpoints (Endpoint) e scegliere Create Endpoint (Crea endpoint).

  3. In Service Name (Nome servizio) scegliere com.amazonaws.region.s3, dove region è il nome della Regione in cui risiede il VPC.

  4. In VPC scegliere il VPC da utilizzare per l'endpoint.

  5. In Configure route tables (Configura tabelle di routing), selezionare le tabelle di routing che devono essere utilizzate dall'endpoint. Il servizio VPC aggiunge automaticamente una route a ogni tabella di routing selezionata che indirizza il traffico S3 al nuovo endpoint.

  6. In Policy scegliere Full Access (Accesso completo) per consentire l'accesso completo al servizio S3 da parte degli utenti o servizi all'interno del VPC. Scegliere Custom (Personalizzato) per limitare ulteriormente l'accesso. Per informazioni, consulta Usare una policy di endpoint personalizzata per limitare l'accesso a S3.

Usare una policy di endpoint personalizzata per limitare l'accesso a S3

La policy di endpoint predefinita consente l'accesso completo a S3 da parte degli utenti o servizi nel tuo VPC. Per limitare ulteriormente l'accesso a S3, crea una policy di endpoint personalizzata. Per ulteriori informazioni, consulta Utilizzo delle policy dell'endpoint per Amazon S3. Puoi anche possibile utilizzare una policy di bucket per limitare l'accesso ai bucket S3 al solo traffico proveniente dal tuo Amazon VPC. Per ulteriori informazioni, consulta Utilizzo delle policy bucket Amazon S3.

Limitazione dell'installazione dei pacchetti nel container di elaborazione

La policy di endpoint predefinita permette agli utenti di installare pacchetti dai repository di Amazon Linux e Amazon Linux 2 nel container di elaborazione. Per impedire agli utenti di installare pacchetti da quel repository, crea una policy di endpoint personalizzata che nega esplicitamente l'accesso ai repository di Amazon Linux e Amazon Linux 2. Di seguito è riportato un esempio di policy che nega l'accesso a questi repository:

{ "Statement": [ { "Sid": "AmazonLinuxAMIRepositoryAccess", "Principal": "*", "Action": [ "s3:GetObject" ], "Effect": "Deny", "Resource": [ "arn:aws:s3:::packages.*.amazonaws.com/*", "arn:aws:s3:::repo.*.amazonaws.com/*" ] } ] } { "Statement": [ { "Sid": "AmazonLinux2AMIRepositoryAccess", "Principal": "*", "Action": [ "s3:GetObject" ], "Effect": "Deny", "Resource": [ "arn:aws:s3:::amazonlinux.*.amazonaws.com/*" ] } ] }

Configurare le tabelle di routing

Utilizza le impostazioni DNS predefinite per la tabella di routing di endpoint, in modo che gli URL Amazon S3 standard (ad esempio http://s3-aws-region.amazonaws.com/MyBucket) vengano risolti. Se non utilizzi le impostazioni DNS predefinite, assicurati che gli URL che utilizzi per specificare le posizioni dei dati nelle attività di elaborazione si risolvano configurando le tabelle di routing di endpoint. Per informazioni sulle tabelle di routing di endpoint VPC, consulta Routing per endpoint gateway nella Guida per l'utente di Amazon VPC.

Configurare il gruppo di sicurezza di VPC

Nell'elaborazione distribuita, è necessario consentire la comunicazione tra diversi container nella stessa attività di elaborazione. A tale scopo, configura una regola per il gruppo di sicurezza che consente connessioni in entrata tra i membri dello stesso gruppo di sicurezza. Per ulteriori informazioni, consulta Regole del gruppo di sicurezza.

Connessione alle risorse al di fuori del VPC

Se stai connettendo i tuoi modelli a risorse esterne al VPC su cui sono in esecuzione, esegui una delle seguenti operazioni:

  • Connettiti ad altri AWS servizi: se il tuo modello ha bisogno di accedere a un AWS servizio che supporti l'interfaccia degli endpoint Amazon VPC, crea un endpoint per connetterti a quel servizio. Per un elenco di servizi che supportano gli endpoint di interfaccia, consulta i AWS servizi che si integrano con AWS PrivateLink nella Guida per l'utente. AWS PrivateLink Per informazioni sulla creazione di un endpoint VPC di interfaccia, consulta Accedere a un AWS servizio utilizzando un endpoint VPC di interfaccia nella Guida per l'utente. AWS PrivateLink

  • Connettiti alle risorse tramite Internet: se i tuoi modelli sono in esecuzione su istanze in un Amazon VPC che non dispone di una sottorete con accesso a Internet, i modelli non avranno accesso alle risorse su Internet. Se il tuo modello ha bisogno di accedere a un AWS servizio che non supporta gli endpoint VPC di interfaccia o a una risorsa esterna AWS, assicurati di eseguire i modelli in una sottorete privata con accesso a Internet utilizzando un gateway NAT pubblico in una sottorete pubblica. Dopo aver eseguito i modelli nella sottorete privata, configura i gruppi di sicurezza e le liste di controllo degli accessi alla rete (NACL) per consentire le connessioni in uscita dalla sottorete privata al gateway NAT pubblico nella sottorete pubblica. Per informazioni, consulta Gateway NAT nella Guida per l'utente di Amazon VPC.

Monitora i SageMaker processi di elaborazione di Amazon con CloudWatch log e metriche

Amazon SageMaker fornisce CloudWatch log e metriche Amazon per monitorare i lavori di formazione. CloudWatch fornisce parametri relativi a CPU, GPU, memoria, memoria GPU e disco e registrazione degli eventi. Per ulteriori informazioni sul monitoraggio dei processi di SageMaker elaborazione di Amazon, consulta Monitora Amazon SageMaker con Amazon CloudWatch eSageMaker metriche relative ai lavori e agli endpoint.