Considerazioni e limitazioni relative all'utilizzo del connettore Spark - Amazon EMR

Considerazioni e limitazioni relative all'utilizzo del connettore Spark

  • Si consiglia di attivare SSL per la connessione JDBC da Spark su Amazon EMR ad Amazon Redshift.

  • Come best practice, è consigliabile gestire le credenziali per il cluster Amazon Redshift in AWS Secrets Manager. Per un esempio, consulta la sezione Utilizzo di AWS Secrets Manager per recuperare le credenziali per la connessione ad Amazon Redshift.

  • Si consiglia di passare un ruolo IAM con il parametro aws_iam_role per il parametro di autenticazione di Amazon Redshift.

  • Il parametro tempformat attualmente non supporta il formato Parquet.

  • La URI tempdir punta a una posizione Amazon S3. Questa directory temporanea non viene pulita automaticamente e quindi potrebbe generare costi aggiuntivi.

  • Prendi in considerazione i seguenti consigli per Amazon Redshift:

  • Prendi in considerazione i seguenti consigli per Amazon S3:

    • Si consiglia di bloccare l'accesso pubblico ai bucket Amazon S3.

    • Si consiglia di utilizzare la crittografia lato server di Amazon S3 per crittografare i bucket Amazon S3 utilizzati.

    • Si consiglia di utilizzare le policy del ciclo di vita di Amazon S3 per definire le regole di conservazione del bucket Amazon S3.

    • Amazon EMR verifica sempre il codice importato dall'open source nell'immagine. Per motivi di sicurezza, non supportiamo i seguenti metodi di autenticazione da Spark ad Amazon S3:

      • Impostazione di chiavi di accesso AWS nella classificazione di configurazione hadoop-env

      • Codifica di chiavi di accesso AWS nella URI tempdir

Per ulteriori informazioni sull'utilizzo del connettore e dei parametri supportati, consulta le seguenti risorse: