Recuperar credenciais do Secrets Manager Recuperar credenciais de IAM

Autenticação com a integração do Amazon Redshift para Apache Spark

Usando AWS Secrets Manager para recuperar credenciais e conectar-se ao Amazon Redshift

O exemplo de código a seguir mostra como você pode usar AWS Secrets Manager para recuperar credenciais para se conectar a um cluster do Amazon Redshift com a interface PySpark do Apache Spark em Python.


from pyspark.sql import SQLContext
import boto3

sc = # existing SparkContext
sql_context = SQLContext(sc)

secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value(
    SecretId='string',
    VersionId='string',
    VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password

# Read data from a table
df = sql_context.read \
    .format("io.github.spark_redshift_community.spark.redshift") \
    .option("url", url) \
    .option("dbtable", "my_table") \
    .option("tempdir", "s3://path/for/temp/data") \
    .load()

Usando IAM para recuperar credenciais e conectar-se ao Amazon Redshift

Você pode usar o driver da JDBC versão 2 fornecido pelo Amazon Redshift para se conectar ao Amazon Redshift com o conector Spark. Para usar AWS Identity and Access Management (IAM), configure sua IAM autenticação JDBC URL para usar. Para se conectar a um cluster do Redshift da AmazonEMR, você deve dar permissão à sua IAM função para recuperar credenciais temporárias. IAM Atribua as seguintes permissões à sua IAM função para que ela possa recuperar credenciais e executar operações do Amazon S3.

Redshift: GetClusterCredentials (para clusters provisionados do Amazon Redshift)
Redshift: DescribeClusters (para clusters provisionados do Amazon Redshift)
Redshift: GetWorkgroup (para grupos de trabalho sem servidor do Amazon Redshift)
Redshift: GetCredentials (para grupos de trabalho sem servidor do Amazon Redshift)
s3: GetBucket
s3: GetBucketLocation
s3: GetObject
s3: PutObject
s3: GetBucketLifecycleConfiguration

Para obter mais informações sobre GetClusterCredentials, consulte Políticas de recursos para GetClusterCredentials.

Você também deve garantir que o Amazon Redshift possa assumir a IAM função durante COPY as UNLOAD operações.


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "redshift.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}

O exemplo a seguir usa IAM autenticação entre o Spark e o Amazon Redshift:


from pyspark.sql import SQLContext
import boto3

sc = # existing SparkContext
sql_context = SQLContext(sc)

url = "jdbc:redshift:iam//redshift-host:redshift-port/db-name"
iam_role_arn = "arn:aws:iam::account-id:role/role-name"

# Read data from a table
df = sql_context.read \
    .format("io.github.spark_redshift_community.spark.redshift") \
    .option("url", url) \
    .option("aws_iam_role", iam_role_arn) \
    .option("dbtable", "my_table") \
    .option("tempdir", "s3a://path/for/temp/data") \
    .mode("error") \
    .load()

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Iniciar uma aplicação do Spark

Leitura e gravação para o Amazon Redshift