— metode —__init__from_rdd from_options from_catalog

DynamicFrameReader kelas

— metode —

__init__
from_rdd
from_options
from_catalog

init

`init(glue_context)`

glue_context — GlueContext kelas yang akan digunakan.

from_rdd

`from_rdd(data, name, schema=None, sampleRatio=None)`

Membaca sebuah DynamicFrame dari Resilient Distributed Dataset (RDD).

data — Set data tempat untuk membaca.
name — Nama tempat untuk membaca.
schema — Skema yang akan dibaca (opsional).
sampleRatio — Rasio sampel (opsional).

from_options

`from_options(connection_type, connection_options={}, format=None, format_options={}, transformation_ctx="")`

Membaca sebuah DynamicFrame menggunakan koneksi dan format yang ditentukan.

connection_type — Jenis koneksi. Nilai yang valid meliputi s3mysql,postgresql,,redshift,sqlserver,oracle,dynamodb, dansnowflake.
connection_options — Pilihan koneksi, seperti path dan tabel basis data (opsional). Untuk informasi selengkapnya, lihat Jenis dan opsi koneksi untuk ETL di AWS Glue for Spark. Untuk sebuah connection_type dari s3, path Amazon S3 didefinisikan dalam sebuah array.
```
connection_options = {"paths": [ "s3://amzn-s3-demo-bucket/object_a", "s3://amzn-s3-demo-bucket/object_b"]}
```
Untuk koneksi JDBC, beberapa properti harus didefinisikan. Perhatikan bahwa nama basis data harus menjadi bagian dari URL. Secara opsional dapat disertakan dalam opsi koneksi.

Awas
Menyimpan kata sandi dalam skrip Anda tidak disarankan. Pertimbangkan boto3 untuk menggunakan untuk mengambilnya dari AWS Secrets Manager atau Katalog Data AWS Glue.
```
connection_options = {"url": "jdbc-url/database", "user": "username", "password": passwordVariable,"dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path"} 
```
Untuk koneksi JDBC yang melakukan pembacaan paralel, Anda dapat mengatur opsi hashfield. Misalnya:
```
connection_options = {"url": "jdbc-url/database", "user": "username", "password": passwordVariable,"dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path" , "hashfield": "month"} 
```
Untuk informasi selengkapnya, lihat Membaca dari tabel JDBC secara paralel.
format — Format spesifikasi (opsional). Ini digunakan untuk Amazon Simple Storage Service (Amazon S3) atau koneksi AWS Glue yang mendukung berbagai format. Lihat Opsi format data untuk input dan output untuk Spark AWS Glue untuk format yang didukung.
format_options — Pilihan format untuk format yang ditentukan. Lihat Opsi format data untuk input dan output untuk Spark AWS Glue untuk format yang didukung.
transformation_ctx — Konteks transformasi yang akan digunakan (opsional).
push_down_predicate — Memfilter partisi tanpa harus mencantumkan dan membaca semua file dalam set data Anda. Untuk informasi selengkapnya, lihat Pra-Pemfilteran Menggunakan Predikat Pushdown.

from_catalog

`from_catalog(database, table_name, redshift_tmp_dir="", transformation_ctx="", push_down_predicate="", additional_options={})`

Membaca sebuah DynamicFrame menggunakan namespace katalog tertentu dan nama tabel.

database — Basis data tempat untuk membaca.
table_name — Nama tempat untuk dibaca.
redshift_tmp_dir — Sebuah direktori sementara Amazon Redshift yang akan digunakan (opsional, jika bukan pembacaan data dari Redshift).
transformation_ctx — Konteks transformasi yang akan digunakan (opsional).
push_down_predicate — Memfilter partisi tanpa harus mencantumkan dan membaca semua file dalam set data Anda. Untuk informasi selengkapnya, lihat Pra-penyaringan menggunakan predikat pushdown.
additional_options— Opsi tambahan yang disediakan untukAWS Glue.
- Untuk menggunakan koneksi JDBC yang melakukan pembacaan paralel, Anda dapat mengatur pilihan hashfield, hashexpression, atau hashpartitions. Misalnya:
```
additional_options = {"hashfield": "month"} 
```
  Untuk informasi selengkapnya, lihat Membaca dari tabel JDBC secara paralel.
- Untuk meneruskan ekspresi katalog untuk memfilter berdasarkan kolom indeks, Anda dapat melihat catalogPartitionPredicate opsi.
  
  catalogPartitionPredicate— Anda dapat meneruskan ekspresi katalog untuk memfilter berdasarkan kolom indeks. Ini mendorong penyaringan ke sisi server. Untuk informasi selengkapnya, lihat Indeks AWS Glue Partisi. Perhatikan itu push_down_predicate dan catalogPartitionPredicate gunakan sintaks yang berbeda. Yang pertama menggunakan sintaks standar Spark SQL dan yang kemudian menggunakan parser JSQL.
  
  Lihat informasi yang lebih lengkap di Mengelola partisi untuk output ETL di AWS Glue.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

DynamicFrameWriter

GlueContext

DynamicFrameReader kelas

— metode —

__init__

__init__(glue_context)

from_rdd

from_rdd(data, name, schema=None, sampleRatio=None)