Impostazione dell'accesso di rete agli archivi di dati - AWS Aderenza

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Impostazione dell'accesso di rete agli archivi di dati

Per eseguire i processi ETL (Extract, Transform and Load, estrazione, trasformazione e caricamento), AWS Glue deve poter accedere ai datastore. Se un processo non deve essere necessariamente eseguito nella tua sottorete Virtual Private Cloud (VPC) (es. trasformazione di dati da Amazon S3 ad Amazon S3) non servono ulteriori configurazioni.

Se un processo deve essere eseguito nella tua sottorete VPC, (es. trasformazione di dati da un datastore JDBC a una sottorete privata), AWS Glue imposta le interfacce di rete elastiche che consentono di connettere i processi dell'utente ad altre risorse all'interno del VPC in modo sicuro. A ogni interfaccia di rete elastica è assegnato un indirizzo IP privato preso dall'intervallo di indirizzi IP nella sottorete che hai specificato. Nessun indirizzo IP pubblico assegnato. I gruppi di sicurezza specificati nella connessione AWS Glue vengono applicati a ciascuna delle interfacce di rete elastiche. Per ulteriori informazioni, consulta Configurazione di Amazon VPC per connessioni JDBC agli archivi dati Amazon RDS da AWS Glue.

Tutti i datastore JDBC ai quali il processo accede devono essere disponibili dalla sottorete VPC. Per accedere ad Amazon S3 dal VPC, serve un endpoint VPC. Se il processo deve accedere sia alle risorse VPC che alla rete Internet pubblica, il VPC deve disporre di un gateway NAT (Network Address Translation) al suo interno.

Un processo o endpoint di sviluppo può accedere a un solo VPC (e sottorete) alla volta. Se devi accedere a datastore in VPC diversi hai a disposizione le seguenti opzioni:

  • Utilizza VPC in peering per accedere ai datastore. Per ulteriori informazioni su VPC in peering, consulta Nozioni di base sul VPC in peering

  • Usa un bucket Amazon S3 come posizione di storage intermedia. Dividi il lavoro in due processi, con l'output Amazon S3 del processo 1 come input per il processo 2.

Per dettagli su come connettersi a un datastore Amazon Redshift utilizzando Amazon VPC, consulta la pagina Configurazione delle connessioni Redshift.

Per dettagli su come connettersi a un datastore Amazon RDS utilizzando Amazon VPC, consulta la pagina Configurazione di Amazon VPC per connessioni JDBC agli archivi dati Amazon RDS da AWS Glue.

Una volta impostate le regole necessarie in Amazon VPC, puoi creare una connessione in AWS Glue con le proprietà necessarie per connetterti ai datastore. Per ulteriori informazioni sulla connessione, consulta Connessione ai dati.

Nota

Assicurati di configurare l'ambiente DNS per AWS Glue. Per ulteriori informazioni, consulta Configurazione di DNS nel VPC.