Prerequisiti Creazione della connessione ad Amazon S3 Test della connessione ad Amazon S3 Creazione di un crawler per un archivio di dati Amazon S3 Creazione di un crawler per le tabelle del Catalogo dati supportate da Amazon S3 Esecuzione di un crawler Risoluzione dei problemi

Crawling di un archivio di dati Amazon S3 utilizzando un endpoint VPC

Per motivi di sicurezza, audit o controllo, puoi consentire l'accesso all'archivio dati Amazon S3 o alle tabelle Catalogo dati supportate da Amazon S3 solo tramite un ambiente Amazon Virtual Private Cloud (Amazon VPC). In questo argomento viene descritto come creare e testare una connessione all'archivio dati Amazon S3 o alle tabelle Catalogo dati supportate da Amazon S3 in un endpoint VPC utilizzando il tipo di connessione Network.

Esegui le attività seguenti per eseguire un crawler nell'archivio dati:

Prerequisiti
Creazione della connessione ad Amazon S3
Test della connessione ad Amazon S3
Creazione di un crawler per un archivio di dati Amazon S3
Esecuzione di un crawler

Prerequisiti

Verifica di aver soddisfatto questi prerequisiti per configurare il datastore Amazon S3 affinché vi si possa accedere solo tramite un ambiente Amazon Virtual Private Cloud (Amazon VPC).

Un VPC configurato. Ad esempio: vpc-01685961063b0d84b. Per ulteriori informazioni, consulta le Nozioni di base su Amazon VPC nella Guida per l'utente di Amazon VPC.
Un endpoint Amazon S3 collegato al VPC. Ad esempio: vpc-01685961063b0d84b. Per ulteriori informazioni, consulta Endpoint per Amazon S3 nella Guida per l'utente di Amazon VPC.
Una voce route che punta all'endpoint VPC. Ad esempio vpce-0ec5da4d265227786 nella tabella di routing utilizzata dall'endpoint VPC (vpce-0ec5da4d265227786).
Una lista di controllo degli accessi di rete collegata al VPC consente il traffico.
Un gruppo di sicurezza collegato al VPC consente il traffico.

Creazione della connessione ad Amazon S3

In genere, le risorse vengono create in Amazon Virtual Private Cloud (Amazon VPC) per impedirne l'accesso tramite rete internet pubblica. Per impostazione predefinita, AWS Glue non è in grado di accedere alle risorse all'interno di un VPC. Per permettere a AWS Glue di accedere alle risorse nel VPC, devi fornire informazioni di configurazione specifiche VPC aggiuntive che includano ID di sottorete VPC e ID dei gruppi di sicurezza. Per creare una connessione Network, è necessario specificare le informazioni seguenti:

Un ID VPC
Una sottorete all'interno del VPC
Un gruppo di sicurezza

Per impostare una connessione Network:

Scegli Add connection (Aggiungi connessione) nel pannello di navigazione della console AWS Glue.
Inserisci il nome della connessione e scegli Network (Rete) come tipo di connessione. Seleziona Successivo.
Configura le informazioni su VPC, sottorete e gruppi di sicurezza.
- VPC: scegli il nome del VPC che contiene l'archivio dati.
- Sottorete: scegli una sottorete nel VPC.
- Gruppi di sicurezza: scegli uno o più gruppi di protezione che consentono l'accesso all'archivio dati nel VPC.
Seleziona Next (Successivo).
Verifica le informazioni di connessione e scegli Finish (Termina).

Test della connessione ad Amazon S3

Una volta creata la connessione di Network, puoi testare la connettività al tuo archivio dati Amazon S3 in un endpoint VPC.

Durante il test di una connessione possono verificarsi i seguenti errori:

ERRORE DI CONNESSIONE A INTERNET: indica un problema di connessione a Internet
ERRORE DI BUCKET NON VALIDO: indica un problema con il bucket Amazon S3
ERRORE DI CONNESSIONE S3: indica un errore di connessione ad Amazon S3
ERRORE DI TIPO DI CONNESSIONE: indica che il tipo di connessione non ha il valore previsto, NETWORK
TIPO DI TEST DI CONNESSIONE NON VALIDO: indica un problema con il tipo di test della connessione di rete
DESTINAZIONE NON VALIDA: indica che il bucket Amazon S3 non è stato specificato correttamente

Per testare una connessione Network:

Seleziona la connessione Network (Rete) nella console AWS Glue.
Scegli Test Connection (Connessione di prova).
Scegli il ruolo IAM creato nel passaggio precedente e specifica un bucket Amazon S3.
Per verificare la connessione, scegli Test connection (Testa connessione). Potrebbero essere necessari alcuni istanti prima che il risultato venga visualizzato.

Se viene visualizzato un errore, controlla quanto segue:

I privilegi corretti vengono forniti al ruolo selezionato.
Viene fornito il bucket Amazon S3 corretto.
I gruppi di sicurezza e la lista di controllo degli accessi di rete consentono il traffico in entrata e in uscita necessario.
Il VPC specificato è connesso a un endpoint VPC Amazon S3.

Dopo aver testato correttamente la connessione, è possibile creare un crawler.

Creazione di un crawler per un archivio di dati Amazon S3

Ora è possibile creare un crawler che specifichi la connessione di Network creata. Per ulteriori dettagli sulla creazione di un crawler, consulta Configurazione di un crawler.

Inizia scegliendo Crawlers (Crawler) nel pannello di navigazione nella console AWS Glue.
Scegli Add crawler (Aggiungi crawler).
Specifica il nome del crawler, quindi scegli Next (Avanti).
Quando viene richiesto di specificare l'origine dati, seleziona S3 e specifica il prefisso del bucket Amazon S3 e la connessione creata in precedenza.
Se necessario, aggiungi un altro archivio dati sulla stessa connessione di rete.
Scegli il ruolo IAM. Il ruolo IAM deve consentire l'accesso al servizio AWS Glue e al bucket Amazon S3. Per ulteriori informazioni, consulta Configurazione di un crawler.
Definisci la pianificazione per il crawler.
Scegli un database esistente nel catalogo dati oppure crea una nuova voce del database.
Completa la configurazione rimanente.

Creazione di un crawler per le tabelle del Catalogo dati supportate da Amazon S3

Ora è possibile creare un crawler che specifichi la connessione di Network creata e il tipo di fonte del Catalogo. Per ulteriori dettagli sulla creazione di un crawler, consulta Configurazione di un crawler.

Inizia scegliendo Crawlers (Crawler) nel pannello di navigazione nella console AWS Glue.
Scegli Add crawler (Aggiungi crawler).
Specifica il nome del crawler, quindi scegli Next (Avanti).
Quando viene richiesto il tipo di origine crawler, scegliere Existing catalog tables (Tabelle di catalogo esistenti) e specificare le tabelle di catalogo esistenti da eseguire per il crawling dall'elenco delle tabelle disponibili.
Scegli il ruolo IAM. Il ruolo IAM deve consentire l'accesso al servizio AWS Glue e al bucket Amazon S3. Per ulteriori informazioni, consulta Configurazione di un crawler.
Definisci la pianificazione per il crawler.
Scegli un database esistente nel catalogo dati oppure crea una nuova voce del database.
Completa la configurazione rimanente e rivedi i passaggi.

Esecuzione di un crawler

Esegui il crawler.

Risoluzione dei problemi

Per la risoluzione dei problemi relativi ai bucket Amazon S3 che utilizzano un gateway VPC, consulta l'argomento relativo alle difficoltà di connessione a un bucket S3 usando un endpoint VPC gateway.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo di una connessione MongoDB o MongoDB Atlas

Risoluzione dei problemi di connessione