Considerazioni e limitazioni relative all'utilizzo del connettore Spark - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Considerazioni e limitazioni relative all'utilizzo del connettore Spark

  • Si consiglia di attivare SSL per la connessione JDBC da Spark su Amazon EMR ad Amazon Redshift.

  • Come best practice, è consigliabile gestire le credenziali per il cluster Amazon Redshift in AWS Secrets Manager . AWS Secrets Manager Per un esempio, consulta Utilizzo per recuperare le credenziali per la connessione ad Amazon Redshift.

  • Si consiglia di passare un ruolo IAM con il parametro aws_iam_role per il parametro di autenticazione di Amazon Redshift.

  • Il parametro tempformat attualmente non supporta il formato Parquet.

  • L'URI tempdir indica una posizione Amazon S3. Questa directory temporanea non viene pulita in automatico e quindi potrebbe generare costi aggiuntivi.

  • Prendi in considerazione i seguenti consigli per Amazon Redshift:

  • Prendi in considerazione i seguenti consigli per Amazon S3:

    • Si consiglia di bloccare l'accesso pubblico ai bucket Amazon S3.

    • Si consiglia di utilizzare la crittografia lato server di Amazon S3 per crittografare i bucket Amazon S3 utilizzati.

    • Si consiglia di utilizzare le policy del ciclo di vita di Amazon S3 per definire le regole di conservazione del bucket Amazon S3.

    • Amazon EMR verifica sempre il codice importato dall'open source nell'immagine. Per motivi di sicurezza, non supportiamo i seguenti metodi di autenticazione da Spark ad Amazon S3:

      • Impostazione delle chiavi di AWS accesso nella classificazione della configurazione hadoop-env

      • Codifica delle chiavi di AWS accesso nell'URI tempdir

Per ulteriori informazioni sull'utilizzo del connettore e dei parametri supportati, consulta le seguenti risorse: