Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Accesso non filtrato a Lake Formation per EMR Serverless
Con le versioni 7.8.0 e successive di Amazon EMR, puoi sfruttare AWS Lake Formation with Glue Data Catalog, dove il ruolo di job runtime dispone di autorizzazioni complete per le tabelle senza le limitazioni del controllo granulare degli accessi. Questa funzionalità consente di leggere e scrivere su tabelle protette da Lake Formation dal batch EMR Serverless Spark e dai lavori interattivi. Consulta le seguenti sezioni per saperne di più su Lake Formation e su come utilizzarlo con EMR Serverless.
Utilizzo di Lake Formation con accesso completo ai tavoli
È possibile accedere alle tabelle del catalogo Glue Data protette da AWS Lake Formation dai job EMR Serverless Spark o dalle sessioni interattive in cui il ruolo di runtime del job ha accesso completo alla tabella. Non è necessario abilitare AWS Lake Formation sull'applicazione EMR Serverless. Quando un job Spark è configurato per Full Table Access (FTA), le credenziali di AWS Lake Formation vengono utilizzate per i dati read/write S3 per le tabelle registrate di AWS Lake Formation, mentre le credenziali del ruolo di runtime del lavoro verranno utilizzate per le read/write tabelle non registrate con Lake Formation. AWS
Importante
Non abilitare AWS Lake Formation per il controllo granulare degli accessi. Un job non può eseguire contemporaneamente Full Table Access (FTA) e Fine-Grained Access Control (FGAC) sullo stesso cluster o applicazione EMR.
Passaggio 1: abilitare l'accesso completo alla tabella in Lake Formation
Per utilizzare la modalità Full Table Access (FTA), devi consentire ai motori di query di terze parti di accedere ai dati senza la convalida dei tag di sessione IAM in AWS Lake Formation. Per abilitarla, segui i passaggi indicati in Integrazione delle applicazioni per l'accesso completo alla tabella.
Nota
Quando si accede alle tabelle con più account, è necessario abilitare l'accesso completo alla tabella sia negli account produttore che in quelli consumatori. Allo stesso modo, quando si accede alle tabelle interregionali, questa impostazione deve essere abilitata sia nelle regioni produttrici che in quelle di consumo.
Fase 2: Configurazione delle autorizzazioni IAM per il ruolo Job Runtime
Per l'accesso in lettura o scrittura ai dati sottostanti, oltre alle autorizzazioni di Lake Formation, un ruolo di job runtime richiede l'autorizzazione lakeformation:GetDataAccess
IAM. Con questa autorizzazione, Lake Formation concede la richiesta di credenziali temporanee per accedere ai dati.
Di seguito è riportato un esempio di politica su come fornire le autorizzazioni IAM per accedere a uno script in Amazon S3, caricare i log su S3, le autorizzazioni dell'API AWS Glue e l'autorizzazione per accedere a Lake Formation.
Passaggio 2.1 Configurare i permessi di Lake Formation
I job Spark che leggono dati da S3 richiedono l'autorizzazione Lake Formation SELECT.
Spark rileva che write/delete i dati in S3 richiedono l'autorizzazione Lake Formation ALL (SUPER).
I lavori Spark che interagiscono con il catalogo Glue Data richiedono l'autorizzazione DESCRIBE, ALTER, DROP, a seconda dei casi.
Per ulteriori informazioni, consulta Concessione delle autorizzazioni sulle risorse di Data Catalog.
Passaggio 3: inizializza una sessione Spark per l'accesso completo alla tabella utilizzando Lake Formation
Prerequisiti
AWS Glue Data Catalog deve essere configurato come metastore per accedere alle tabelle di Lake Formation.
Imposta le seguenti impostazioni per configurare il catalogo Glue come metastore:
--conf spark.sql.catalogImplementation=hive --conf spark.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Per ulteriori informazioni sull'attivazione di Data Catalog per EMR Serverless, vedere Configurazione Metastore per EMR Serverless.
Per accedere alle tabelle registrate con AWS Lake Formation, è necessario impostare le seguenti configurazioni durante l'inizializzazione di Spark per configurare Spark per utilizzare le credenziali di Lake Formation AWS .
-
spark.hadoop.fs.s3.credentialsResolverClass=com.amazonaws.glue.accesscontrol.AWSLakeFormationCredentialResolver
: Configurare EMR Filesystem (EMRFS) per utilizzare le credenziali di Lake AWS Formation S3 per le tabelle registrate di Lake Formation. Se la tabella non è registrata, utilizza le credenziali del ruolo di runtime del job. -
spark.hadoop.fs.s3.useDirectoryHeaderAsFolderObject=true
espark.hadoop.fs.s3.folderObject.autoAction.disabled=true
: configura EMRFS per utilizzare Content Type Header application/x-directory invece del suffisso $folder$ durante la creazione di cartelle S3. Questo è necessario per leggere le tabelle di Lake Formation, poiché le credenziali di Lake Formation non consentono la lettura delle cartelle delle tabelle con il suffisso $folder$. -
spark.sql.catalog.skipLocationValidationOnCreateTable.enabled=true
: Configura Spark per saltare la convalida del vuoto della posizione della tabella prima della creazione. Ciò è necessario per le tabelle registrate di Lake Formation, poiché le credenziali di Lake Formation per verificare la posizione vuota sono disponibili solo dopo la creazione della tabella Glue Data Catalog. Senza questa configurazione, le credenziali del ruolo di runtime del job convalideranno la posizione della tabella vuota. -
spark.sql.catalog.createDirectoryAfterTable.enabled=true
: configura Spark per creare la cartella Amazon S3 dopo la creazione della tabella nel metastore Hive. Questo è necessario per le tabelle registrate di Lake Formation, poiché le credenziali di Lake Formation per creare la cartella S3 sono disponibili solo dopo la creazione della tabella Glue Data Catalog. -
spark.sql.catalog.dropDirectoryBeforeTable.enabled=true
: Configura Spark per eliminare la cartella S3 prima dell'eliminazione della tabella nel metastore Hive. Ciò è necessario per le tabelle registrate di Lake Formation, poiché le credenziali di Lake Formation per eliminare la cartella S3 non sono disponibili dopo l'eliminazione della tabella dal Glue Data Catalog. -
spark.sql.catalog.<catalog>.glue.lakeformation-enabled=true
: Configura il catalogo Iceberg per utilizzare le credenziali di AWS Lake Formation S3 per le tabelle registrate di Lake Formation. Se la tabella non è registrata, usa le credenziali di ambiente predefinite.
Configura la modalità di accesso completo alla tabella in SageMaker Unified Studio
Per accedere alle tabelle registrate di Lake Formation dalle sessioni interattive di Spark nei JupyterLab notebook, è necessario utilizzare la modalità di autorizzazione alla compatibilità. Usa il comando magic %%configure per configurare la configurazione di Spark. Scegli la configurazione in base al tipo di tabella:
Sostituisci i segnaposto:
S3_DATA_LOCATION
: Il percorso del tuo bucket S3REGION
: AWS regione (ad es. us-east-1)ACCOUNT_ID
: L'ID del tuo account AWS
Nota
È necessario impostare queste configurazioni prima di eseguire qualsiasi operazione Spark sul notebook.
Operazioni supportate
Queste operazioni utilizzeranno le credenziali di AWS Lake Formation per accedere ai dati della tabella.
CREATE TABLE
ALTER TABLE
INSERT INTO
INSERT OVERWRITE
UPDATE
MERGE INTO
DELETE FROM
ANALIZZA LA TABELLA
TABELLA DI RIPARAZIONE
DROP TABLE
Query su origini dati Spark
Scritture di origini dati Spark
Nota
Le operazioni non elencate sopra continueranno a utilizzare le autorizzazioni IAM per accedere ai dati delle tabelle.
Considerazioni
Se una tabella Hive viene creata utilizzando un lavoro per cui non è abilitato l'accesso completo alla tabella e non viene inserito alcun record, le letture o scritture successive da un lavoro con accesso completo alla tabella avranno esito negativo. Questo perché EMR Spark senza accesso completo alla tabella aggiunge il
$folder$
suffisso al nome della cartella della tabella. Per risolvere questo problema, puoi:Inserire almeno una riga nella tabella da un lavoro in cui l'FTA non è abilitato.
Configura il lavoro che non ha FTA abilitato in modo che non utilizzi il
$folder$
suffisso nel nome della cartella in S3. Ciò può essere ottenuto impostando la configurazione di Spark.spark.hadoop.fs.s3.useDirectoryHeaderAsFolderObject=true
Crea una cartella S3 nella posizione della tabella
s3://path/to/table/table_name
utilizzando la console AWS S3 o la CLI AWS S3.
Full Table Access funziona esclusivamente con EMR Filesystem (EMRFS). Il file system S3A non è compatibile.
L'accesso completo alla tabella è supportato per le tabelle Hive e Iceberg. Il supporto per le tabelle Hudi e Delta non è stato ancora aggiunto.
I lavori che fanno riferimento alle tabelle con le regole Lake Formation Fine-Grained Access Control (FGAC) o Glue Data Catalog Views avranno esito negativo. Per interrogare una tabella con una regola FGAC o una Glue Data Catalog View, è necessario utilizzare la modalità FGAC. È possibile abilitare la modalità FGAC seguendo i passaggi descritti nella AWS documentazione: Utilizzo di EMR Serverless with Lake AWS Formation per un controllo granulare degli accessi.
L'accesso completo alla tabella non supporta Spark Streaming.
Quando si scrive Spark DataFrame su una tabella Lake Formation, è supportata solo la modalità APPEND:
df.write.mode("append").saveAsTable(
table_name
)