Integrazione con Amazon Redshift per Apache Spark - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Integrazione con Amazon Redshift per Apache Spark

Apache Spark è un framework di elaborazione distribuito e un modello di programmazione che ti aiuta ad eseguire attività come machine learning, elaborazione di flussi o analisi di grafici. Come Apache Hadoop, Spark è un sistema di elaborazione distribuito open source utilizzato in genere per carichi di lavoro di Big Data. Spark dispone di un motore di esecuzione basato su grafo aciclico orientato (DAG) ottimizzato e memorizza attivamente i dati nella cache. Ciò può migliorare le prestazioni, in particolare per determinati algoritmi e per le query interattive.

Questa integrazione ti fornisce un connettore Spark che puoi usare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift serverless. Queste applicazioni non compromettono le prestazioni delle applicazioni o la coerenza transazionale dei dati. Questa integrazione è inclusa automaticamente in Amazon EMR e AWS Glue, pertanto puoi eseguire immediatamente i processi di Apache Spark che accedono e caricano i dati in Amazon Redshift nell'ambito delle tue pipeline di importazione e trasformazione dei dati.

Al momento, con questa integrazione puoi utilizzare le versioni 3.3.0, 3.3.1, 3.3.2 e 3.4.0 di Spark.

Questa integrazione fornisce quanto segue:

  • AWS Identity and Access Management (IAM) autenticazione. Per ulteriori informazioni, consulta Identity and access management in Amazon Redshift.

  • Pushdown dei predicati e delle query per migliorare le prestazioni.

  • Tipi di dati di Amazon Redshift.

  • Connettività ad Amazon Redshift e Amazon Redshift serverless.

Considerazioni e limitazioni relative all'utilizzo del connettore Spark

  • La URI tempdir punta a una posizione Amazon S3. Questa directory temporanea non viene pulita automaticamente e potrebbe comportare costi aggiuntivi. Si consiglia di utilizzare le Policy del ciclo di vita di Amazon S3 nella Amazon Simple Storage Service User Guide (Guida per l'utente di Amazon Simple Storage Service) per definire le regole di conservazione del bucket Amazon S3.

  • Per impostazione predefinita, le copie tra Amazon S3 e Redshift non funzionano se il bucket S3 e il cluster Redshift si trovano in regioni AWS diverse. Per utilizzare regioni AWS separate, imposta il parametro tempdir_region sulla regione del bucket S3 utilizzato per tempdir.

  • Scritture tra regioni tra S3 e Redshift se si scrivono dati Parquet utilizzando il parametro tempformat.

  • Si consiglia di utilizzare Crittografia lato server di Amazon S3 per crittografare i bucket Amazon S3 utilizzati.

  • Si consiglia di bloccare l'accesso pubblico ai bucket Amazon S3.

  • Si consiglia di non rendere accessibile pubblicamente il cluster Amazon Redshift.

  • Si consiglia di abilitare la registrazione dell'audit di Amazon Redshift.

  • Si consiglia di abilitare la crittografia dei dati inattivi di Amazon Redshift.

  • Si consiglia di abilitare SSL per la connessione JDBC da Spark su Amazon EMR ad Amazon Redshift.

  • Si consiglia di passare un ruolo IAM utilizzando il parametro aws_iam_role per il parametro di autenticazione di Amazon Redshift.