Fase 1: In AWS Glue, fornisci l'accesso ai ruoli dei consumatori Passaggio 2: configura l'account consumatore per l'accesso Fase 3: Configurare una sessione e creare una query Risorse aggiuntive

Configura AWS Glue l'accesso tra account diversi in Athena per Spark

Questo argomento mostra come configurare l'account consumatore 666666666666 e l'account 999999999999 proprietario per l'accesso su più account. AWS Glue Quando gli account sono configurati, l'account consumer può eseguire query da Athena for Spark sui database e sulle tabelle AWS Glue del proprietario.

Fase 1: In AWS Glue, fornisci l'accesso ai ruoli dei consumatori

Nel AWS Glue, il proprietario crea una politica che fornisce ai ruoli del consumatore l'accesso al catalogo AWS Glue dati del proprietario.

Per aggiungere una AWS Glue politica che consenta a un ruolo di consumatore di accedere al catalogo dati del proprietario

Accedi a AWS Management Console utilizzando l'account del proprietario del catalogo.
Apri la AWS Glue console all'indirizzo https://console.aws.amazon.com/glue/.
Nel riquadro di navigazione, espandi Data Catalog, quindi seleziona Impostazioni catalogo.

Nella pagina Impostazioni del catalogo dati, nella sezione Autorizzazioni, aggiungi una policy come quella che segue. Questa politica fornisce i ruoli per l'666666666666accesso dell'account consumatore al catalogo dati nell'account del proprietario999999999999.

Passaggio 2: configura l'account consumatore per l'accesso

Nell'account consumer, crea una policy per consentire l'accesso al proprietario AWS Glue Data Catalog, ai database e alle tabelle e associa la policy a un ruolo. L'esempio seguente utilizza un account consumer666666666666.

Per creare una AWS Glue politica di accesso al proprietario AWS Glue Data Catalog

Accedi con l'account consumer a AWS Management Console.
Aprire la console IAM all'indirizzo https://console.aws.amazon.com/iam/.
Nel riquadro di navigazione, espandi Gestione accesso, quindi seleziona Policy.
Scegliere Create Policy (Crea policy).
Nella pagina Specifica autorizzazioni, seleziona JSON.

Nell'editor delle politiche, inserisci un'istruzione JSON come la seguente che consente AWS Glue azioni sul catalogo di dati dell'account proprietario.

Scegli Next (Successivo).
Nella pagina Rivedi e crea, per Nome policy inserisci un nome per la policy.
Scegliere Create Policy (Crea policy).

Successivamente, utilizzi la console IAM nell'account consumer per allegare la policy che hai appena creato a uno o più ruoli IAM che l'account consumer utilizzerà per accedere al catalogo dati del proprietario.

Per allegare la AWS Glue politica ai ruoli nell'account consumatore

Nel pannello di navigazione della console IAM dell'account consumer, seleziona Ruoli.
Nella pagina Ruoli, individua il ruolo a cui intendi collegare la policy.
Seleziona Aggiungi autorizzazioni, quindi seleziona Collega policy.
Trova la policy che hai appena creato.
Seleziona la casella di controllo della policy, quindi seleziona Aggiungi autorizzazioni.
Ripeti i passaggi per aggiungere la policy agli altri ruoli che intendi utilizzare.

Fase 3: Configurare una sessione e creare una query

In Athena Spark, nell'account del richiedente, utilizzando il ruolo specificato, crea una sessione per testare l'accesso creando un notebook o modificando una sessione corrente. Quando configuri le proprietà della sessione, specifica una delle seguenti opzioni:

Il separatore di AWS Glue catalogo: con questo approccio, includi l'ID dell'account proprietario nelle tue query. Utilizza questo metodo se intendi utilizzare la sessione per eseguire query sui cataloghi di dati di diversa proprietà.
L'ID del AWS Glue catalogo: con questo approccio, si interroga direttamente il database. Questo metodo è più comodo se intendi utilizzare la sessione per eseguire query sul catalogo dati di una sola proprietà.

Quando modificate le proprietà della sessione, aggiungete quanto segue:


{ 
    "spark.hadoop.aws.glue.catalog.separator": "/" 
}

Quando esegui una query in una cella, utilizza una sintassi simile a quella dell'esempio seguente. Tieni presente che nella clausola FROM, l'ID del catalogo e il separatore sono obbligatori prima del nome del database.


df = spark.sql('SELECT requestip, uri, method, status FROM `999999999999/mydatabase`.cloudfront_logs LIMIT 5') 
df.show()

Quando modificate le proprietà della sessione, inserite la seguente proprietà. 999999999999Sostituiscilo con l'ID dell'account del proprietario.


{ 
    "spark.hadoop.hive.metastore.glue.catalogid": "999999999999" 
}

Quando esegui una query in una cella, utilizza una sintassi come la seguente: Si noti che nella clausola FROM, l'ID del catalogo e il separatore non sono richiesti prima del nome del database.


df = spark.sql('SELECT * FROM mydatabase.cloudfront_logs LIMIT 10') 
df.show()

Risorse aggiuntive

Configura l'accesso tra più account ai cataloghi di dati AWS Glue

Gestione delle autorizzazioni per più account utilizzando entrambi AWS Glue e Lake Formation nella AWS Lake Formation Developer Guide.

Configura l'accesso tra account a un account condiviso AWS Glue Data Catalog utilizzando Amazon Athena AWS in Prescriptive Guidance Patterns.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Abilita la crittografia Spark

Quote del servizio