기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Redshift에서 읽고 쓰기
다음 코드 예제는 데이터 소스 API와 SparkSQL을 통해 Amazon Redshift 데이터베이스에서 샘플 데이터를 읽고 쓰는 데 PySpark를 사용합니다.
PySpark를 사용하여 데이터 소스 API를 통해 Amazon Redshift 데이터베이스에서 샘플 데이터를 읽고 씁니다.
import boto3
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc)
url = "jdbc:redshift:iam://redshifthost:5439/database"
aws_iam_role_arn = "arn:aws:iam::accountID
:role/roleName
"
df = sql_context.read \
.format("io.github.spark_redshift_community.spark.redshift") \
.option("url", url
) \
.option("dbtable", "tableName
") \
.option("tempdir", "s3://path/for/temp/data
") \
.option("aws_iam_role", "aws_iam_role_arn
") \
.load()
df.write \
.format("io.github.spark_redshift_community.spark.redshift") \
.option("url", url
) \
.option("dbtable", "tableName_copy
") \
.option("tempdir", "s3://path/for/temp/data
") \
.option("aws_iam_role", "aws_iam_role_arn
") \
.mode("error") \
.save()