Configurazione AWS Glue sessioni interattive per Jupyter e AWS Glue Studio notebook - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione AWS Glue sessioni interattive per Jupyter e AWS Glue Studio notebook

Introduzione ai magic di Jupyter

I magic di Jupyter sono comandi che possono essere eseguiti all'inizio di una cella o come un intero corpo di una cella. I magic di linea iniziano per %, i magic di cella per %%. I magic di linea come %region e %connections possono essere eseguiti con più magic in una cella o con codice incluso nel corpo della cella come nell'esempio seguente.

%region us-east-2 %connections my_rds_connection dy_f = glue_context.create_dynamic_frame.from_catalog(database='rds_tables', table_name='sales_table')

I magic di cella devono utilizzare l'intera cella e possono avere il comando esteso su più righe. Un esempio di %%sql è riportato di seguito.

%%sql select * from rds_tables.sales_table

Magics supportato da AWS Glue sessioni interattive per Jupyter

Di seguito sono elencati i magic che puoi utilizzare con AWS Glue sessioni interattive per notebook Jupyter.

Sessioni Magic

Nome Tipo Descrizione
%help N/A Restituisce un elenco di descrizioni e tipi di input per tutti i comandi magic.
%profile Stringa Specificare un profilo nella AWS configurazione da utilizzare come provider di credenziali.
%region Stringa

Specificare Regione AWS l'in cui inizializzare la sessione. Impostazione predefinita da ~/.aws/configure.

Esempio: %region us-west-1

%idle_timeout Int

Il numero di minuti di inattività dopo i quali una sessione andrà in timeout in seguito all'esecuzione di una cella. Il valore predefinito del timeout di inattività per le ETL sessioni Spark è il timeout predefinito, pari a 2.880 minuti (48 ore). Per altri tipi di sessione, consulta la documentazione relativa al tipo di sessione specifico.

Esempio: %idle_timeout 3000

%session_id N/A Restituisce l'ID della sessione in esecuzione.
%session_id_prefix Stringa

Definire una stringa che precederà tutte le sessioni IDs nel formato [session_id_prefix] - [session_id]. Se non viene fornito un ID di sessione, UUID verrà generato un ID casuale. Questo magic non è supportato quando esegui un notebook Jupyter in AWS Glue Studio.

Esempio: %session_id_prefix 001

%status Restituisce lo stato dell'attuale AWS Glue sessione inclusi la durata, la configurazione e l'utente/ruolo di esecuzione.
%stop_session Arresta la sessione corrente.
%list_sessions Elenca tutte le sessioni attualmente in esecuzione per nome e ID.
%session_type Stringa

Imposta il tipo di sessione su Flussi di ETL dati o Ray.

Esempio: %session_type Streaming

%glue_version Stringa

La versione di AWS Glue che questa sessione dovrà utilizzare.

Esempio: %glue_version 3.0

Magic per la selezione dei tipi di processo

Nome Tipo Descrizione
%streaming Stringa Cambia il tipo di sessione in AWS Glue Streaming.
%etl Stringa Cambia il tipo di sessione in AWS Glue ETL.
%glue_ray Stringa Cambia il tipo di sessione in AWS Glue per Ray. Vedi Magics supportato dalle sessioni interattive di AWS Glue Ray.

AWS Glue per Spark config magics

Il magic %%configure è un dizionario formattato json composto da tutti i parametri di configurazione per una sessione. Ciascun parametro può essere specificato qui o tramite magic individuali.

Nome Tipo Descrizione
%%configure Dizionario

Specificare un dizionario JSON formattato composto da tutti i parametri di configurazione per una sessione. Ciascun parametro può essere specificato qui o tramite magic individuali.

Per un elenco di parametri ed esempi su come utilizzarlo%%configure, vedere. argomenti del magic di cella %%configure

%iam_role Stringa

Specificare un IAM ruolo con ARN cui eseguire la sessione. Predefinito da ~/.aws/configure.

Esempio: %iam_role AWSGlueServiceRole

%number_of_workers Int

Il numero di dipendenti di un specifico worker-type allocati quando viene eseguito un processo. Deve essere impostato anche worker_type. Il number_of_workers predefinito è 5.

Esempio: %number_of_workers 2

%additional_python_modules Elenco

Elenco separato da virgole di moduli Python aggiuntivi da includere nel cluster (possono provenire da PyPI o S3).

Esempio: %additional_python_modules pandas, numpy.

%%tags Stringa

Aggiunge tag a una sessione. Specifica i tag tra parentesi graffe { }. Ogni coppia di nomi di tag è racchiusa tra parentesi (" ") e separata da una virgola (,).

%%tags {"billing":"Data-Platform", "team":"analytics"}

Utilizza il magic %status per visualizzare i tag associati alla sessione.

%status
Session ID: <sessionId> Status: READY Role: <example-role> CreatedOn: 2023-05-26 11:12:17.056000-07:00 GlueVersion: 3.0 Job Type: glueetl Tags: {'owner':'example-owner', 'team':'analytics', 'billing':'Data-Platform'} Worker Type: G.4X Number of Workers: 5 Region: us-west-2 Applying the following default arguments: --glue_kernel_version 0.38.0 --enable-glue-datacatalog true Arguments Passed: ['--glue_kernel_version: 0.38.0', '--enable-glue-datacatalog: true']
%%assume_role Dizionario

Specificare un dizionario formattato json o una ARN stringa di IAM ruolo per creare una sessione per l'accesso multi-account.

ARNEsempio con:

%%assume_role { 'arn:aws:iam::XXXXXXXXXXXX:role/AWSGlueServiceRole' }

Esempio con credenziali:

%%assume_role {{ "aws_access_key_id" = "XXXXXXXXXXXX", "aws_secret_access_key" = "XXXXXXXXXXXX", "aws_session_token" = "XXXXXXXXXXXX" }}

argomenti del magic di cella %%configure

Il magic %%configure è un dizionario formattato json composto da tutti i parametri di configurazione per una sessione. Ciascun parametro può essere specificato qui o tramite magic individuali. Di seguito sono riportati alcuni esempi di argomenti supportati dal magic di cella %%configure. Utilizza il -- prefisso per gli argomenti di esecuzione specificati per il lavoro. Esempio:

%%configure { "--user-jars-first": "true", "--enable-glue-datacatalog": "false" }

Per ulteriori informazioni sui parametri di processo, consultaParametri del processo.

Configurazione della sessione

Parametro Tipo Descrizione
max_retries Int

Il numero massimo di tentativi per riprovare il processo se ha esito negativo.

%%configure { "max_retries": "0" }
max_concurrent_runs Int Il numero massimo di esecuzioni simultanee consentite per un processo.

Esempio:

%%configure { "max_concurrent_runs": "3" }

Parametri della sessione

Parametro Tipo Descrizione
--enable-spark-ui Booleano Abilita l'interfaccia utente di Spark per il monitoraggio e il debug AWS Glue ETLlavori.
%%configure { "--enable-spark-ui": "true" }
--spark-event-logs-path Stringa Specifica un percorso Amazon S3. Quando si utilizza la funzionalità di monitoraggio dell'interfaccia utente Spark.

Esempio:

%%configure { "--spark-event-logs-path": "s3://path/to/event/logs/" }
--script_location Stringa Specifica il percorso S3 per uno script che esegue un processo.

Esempio:

%%configure { "script_location": "s3://new-folder-here" }
--SECURITY_CONFIGURATION Stringa

Il nome di una configurazione AWS Glue di sicurezza

Esempio:

%%configure { "--security_configuration": { "encryption_type": "kms", "kms_key_id": "YOUR_KMS_KEY_ARN" } }
--job-language Stringa Il linguaggio di programmazione script. Accetta un valore di "scala" o "python". L'impostazione predefinita è "python".

Esempio:

%%configure { "--job-language": "scala" }
--class Stringa La classe Scala che funge da punto di accesso per lo script Scala. L'impostazione predefinita è null.

Esempio:

%%configure { "--class": "className" }
--user-jars-first Booleano Assegna la priorità ai JAR file aggiuntivi del cliente nel classpath. L'impostazione predefinita è null.

Esempio:

%%configure { "--user-jars-first": "true" }
--use-postgres-driver Booleano Assegna la priorità al JDBC driver Postgre nel classpath per evitare un conflitto con il driver. Amazon Redshift JDBC L'impostazione predefinita è null.

Esempio:

%%configure { "--use-postgres-driver": "true" }
--extra-files List(string) I percorsi Amazon S3 dei file aggiuntivi, come file di configurazione che AWS Glue copia nella directory di lavoro dello script prima di eseguirlo.

Esempio:

%%configure { "--extra-files": "s3://path/to/additional/files/" }
--job-bookmark-option Stringa Controlla il comportamento di un segnalibro del processo. Accetta il valore di job-bookmark-enable '', 'job-bookmark-disable' o 'job-bookmark-pause'. L'impostazione predefinita è 'job-bookmark-disable'.

Esempio:

%%configure { "--job-bookmark-option": "job-bookmark-enable" }
--TempDir Stringa Specifica un percorso Amazon S3 a un bucket utilizzabile come directory temporanea per il processo. L'impostazione predefinita è null.

Esempio:

%%configure { "--TempDir": "s3://path/to/temp/dir" }
--enable-s3-parquet-optimized-committer Booleano Abilita il committer ottimizzato EMRFS Amazon S3 per la scrittura dei dati Parquet in Amazon S3. Il valore predefinito è "true".

Esempio:

%%configure { "--enable-s3-parquet-optimized-committer": "false" }
--enable-rename-algorithm-v2 Booleano Imposta la versione dell'algoritmo di EMRFS ridenominazione alla versione 2. Il valore predefinito è "true".

Esempio:

%%configure { "--enable-rename-algorithm-v2": "true" }
--enable-glue-datacatalog Booleano Consente di utilizzare il AWS Glue Catalogo dati come metastore Apache Spark Hive.

Esempio:

%%configure { "--enable-glue-datacatalog": "true" }
--enable-metrics Booleano Abilita la raccolta di parametri per la profilatura del processo per l'esecuzione. Il valore predefinito è "false".

Esempio:

%%configure { "--enable-metrics": "true" }
--enable-continuous-cloudwatch-log Booleano Abilita la registrazione continua in tempo reale per AWS Glue Processo. Il valore predefinito è "false".

Esempio:

%%configure { "--enable-continuous-cloudwatch-log": "true" }
--enable-continuous-log-filter Booleano Specifica un filtro standard o nessun filtro durante la creazione o la modifica di un processo abilitato per la registrazione continua. Il valore predefinito è "true".

Esempio:

%%configure { "--enable-continuous-log-filter": "true" }
--continuous-log-stream-prefix Stringa Specificare un prefisso del flusso di Amazon CloudWatch log personalizzato per un processo abilitato per la registrazione continua. L'impostazione predefinita è null.

Esempio:

%%configure { "--continuous-log-stream-prefix": "prefix" }
--continuous-log-conversionPattern Stringa Specifica un modello di log di conversione personalizzato per un processo abilitato per la registrazione continua. L'impostazione predefinita è null.

Esempio:

%%configure { "--continuous-log-conversionPattern": "pattern" }
--conf Stringa Controlla i parametri di configurazione di Spark. È per casi d'uso avanzati. Utilizzare --conf prima di ogni parametro. Esempio:
%%configure { "--conf": "spark.hadoop.hive.metastore.glue.catalogid=123456789012 --conf hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory --conf hive.metastore.schema.verification=false" }
timeout Int Determina il tempo massimo di attesa che la sessione Spark deve attendere per il completamento di un'istruzione prima di terminarla.
%%configure { "timeout": "30" }
auto-scaling Booleano Determina se utilizzare o meno l'auto-scaling.
%%configure {   "––enable-auto-scaling": "true" }

Spark jobs (ETLe streaming) magics

Nome Tipo Descrizione
%worker_type Stringa Standard, G.1X o G.2X. Anche number_of_workers deve essere impostato. Il worker_type predefinito è G.1X.
%connections Elenco

Specifica un elenco separato da virgola di connessioni da utilizzare nella sessione.

Esempio:

%connections my_rds_connection dy_f = glue_context.create_dynamic_frame.from_catalog(database='rds_tables', table_name='sales_table')
%extra_py_files Elenco Specifica un elenco separato da virgola di file Python aggiuntivi da Amazon S3.
%extra_jars Elenco Specifica un elenco separato da virgola di jar aggiuntivi da includere nel cluster.
%spark_conf Stringa Specifica le configurazioni Spark personalizzate per la sessione. Ad esempio %spark_conf spark.serializer=org.apache.spark.serializer.KryoSerializer.

Magic per processi Ray

Nome Tipo Descrizione
%min_workers Int Il numero minimo di worker allocati a un processo Ray. Default: 1.

Esempio: %min_workers 2

%object_memory_head Int La percentuale di memoria libera sul nodo principale dell'istanza dopo un avvio a caldo. Minimo: 0 Massimo: 100

Esempio: %object_memory_head 100

%object_memory_worker Int La percentuale di memoria libera sui nodi worker dell'istanza dopo un avvio a caldo. Minimo: 0 Massimo: 100

Esempio: %object_memory_worker 100

Magic operativi

Nome Tipo Descrizione
%%sql Stringa

Esegui codiceSQL. Tutte le righe dopo la %%sql magia iniziale verranno passate come parte del SQL codice.

Esempio: %%sql select * from rds_tables.sales_table

%matplot Figura matplotlib

Visualizza i dati utilizzando la libreria matplotlib.

Esempio:

import matplotlib.pyplot as plt # Set X-axis and Y-axis values x = [5, 2, 8, 4, 9] y = [10, 4, 8, 5, 2] # Create a bar chart plt.bar(x, y) # Show the plot %matplot plt
%plotly Figura plotly

Visualizza i dati utilizzando la libreria plotly.

Esempio:

import plotly.express as px #Create a graphical figure fig = px.line(x=["a","b","c"], y=[1,3,2], title="sample figure") #Show the figure %plotly fig

Sessioni di denominazione

AWS Glue Le sessioni interattive sono AWS risorse e richiedono un nome. I nomi devono essere univoci per ogni sessione e possono essere limitati dagli IAM amministratori. Per ulteriori informazioni, consulta Sessioni interattive con IAM. Il kernel Jupyter genera automaticamente nomi di sessione univoci per tuo conto. Tuttavia, le sessioni possono essere nominate manualmente in due modi:

  1. Utilizzando il file di AWS Command Line Interface configurazione che si trova in. ~.aws/config Vedere Configurazione di AWS Config con. AWS Command Line Interface

  2. Utilizzo dei magic %session_id_prefix. Per informazioni, consulta Magics supportato da AWS Glue sessioni interattive per Jupyter .

Il nome di una sessione viene generato come segue:

  • Quando vengono forniti il prefisso e session_id: il nome della sessione sarà {prefisso} - {}. UUID

  • Quando non viene fornito nulla: il nome della sessione sarà {UUID}.

Il prefisso dei nomi delle sessioni consente di riconoscere una sessione quando viene elencata nella AWS CLI o nella console.

Specificare un IAM ruolo per le sessioni interattive

È necessario specificare un ruolo AWS Identity and Access Management (IAM) da utilizzare con AWS Glue ETLcodice che esegui con sessioni interattive.

Il ruolo deve disporre delle stesse IAM autorizzazioni di quelle necessarie per l'esecuzione AWS Glue Processo. Vedi Creare un IAM ruolo per AWS Glueper ulteriori informazioni sulla creazione di un ruolo per AWS Glue Processo e sessioni interattive.

IAMI ruoli possono essere specificati in due modi:

Configurazione di sessioni con profili denominati

AWS Glue Le sessioni interattive utilizzano le stesse credenziali di AWS Command Line Interface o boto3. Le sessioni interattive onorano e lavorano con profili denominati come il che AWS CLI si trova in (~/.aws/configLinux e macOS) o (Windows). %USERPROFILE%\.aws\config Per ulteriori informazioni, consulta la sezione Using named profiles.

Le sessioni interattive sfruttano i profili denominati consentendo AWS Glue Ruolo di servizio e ID sessione da specificare in un profilo. Per configurare un ruolo di profilo, aggiungere una riga per la chiave iam_role e/o session_id_prefix al tuo profilo denominato come mostrato di seguito. Il valore session_id_prefix non richiede virgolette. Ad esempio, se desideri aggiungere un session_id_prefix, inserisci il valore di session_id_prefix=myprefix.

[default] region=us-east-1 aws_access_key_id=AKIAIOSFODNN7EXAMPLE aws_secret_access_key=wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY glue_iam_role=arn:aws:iam::<AccountID>:role/<GlueServiceRole> session_id_prefix=<prefix_for_session_names> [user1] region=eu-west-1 aws_access_key_id=AKIAI44QH8DHBEXAMPLE aws_secret_access_key=je7MtGbClwBF/2Zp9Utk/h3yCo8nvbEXAMPLEKEY glue_iam_role=arn:aws:iam::<AccountID>:role/<GlueServiceRoleUser1> session_id_prefix=<prefix_for_session_names_for_user1>

Se si dispone di un metodo personalizzato per generare credenziali, è anche possibile configurare il profilo in modo che utilizzi il parametro credential_process nel file ~/.aws/config. Ad esempio:

[profile developer] region=us-east-1 credential_process = "/Users/Dave/generate_my_credentials.sh" --username helen

Puoi trovare ulteriori dettagli sulle credenziali di approvvigionamento tramite il parametro credential_process qui: Credenziali di approvvigionamento con un processo esterno.

Se nel profilo che state usando non sono impostate una regione o un iam_role, dovete specificarli usando le %region e i %iam_role magic nella prima cella che eseguite.