Menanyakan data eksternal menggunakan Amazon Redshift Spectrum - Amazon Redshift

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menanyakan data eksternal menggunakan Amazon Redshift Spectrum

Menggunakan Amazon Redshift Spectrum, Anda dapat secara efisien melakukan kueri dan mengambil data terstruktur dan semi-terstruktur dari file di Amazon S3 tanpa harus memuat data ke dalam tabel Amazon Redshift. Kueri Redshift Spectrum menggunakan paralelisme masif untuk berjalan sangat cepat terhadap kumpulan data besar. Sebagian besar pemrosesan terjadi di lapisan Redshift Spectrum, dan sebagian besar data tetap ada di Amazon S3. Beberapa cluster dapat secara bersamaan menanyakan kumpulan data yang sama di Amazon S3 tanpa perlu membuat salinan data untuk setiap cluster.

Ikhtisar Amazon Redshift Spectrum

Amazon Redshift Spectrum berada di server Amazon Redshift khusus yang independen dari cluster Anda. Amazon Redshift mendorong banyak tugas komputasi intensif, seperti pemfilteran predikat dan agregasi, ke lapisan Redshift Spectrum. Dengan demikian, kueri Redshift Spectrum menggunakan kapasitas pemrosesan klaster Anda jauh lebih sedikit daripada kueri lainnya. Redshift Spectrum juga berskala cerdas. Berdasarkan permintaan kueri Anda, Redshift Spectrum berpotensi menggunakan ribuan instance untuk memanfaatkan pemrosesan paralel secara masif.

Anda membuat tabel Redshift Spectrum dengan mendefinisikan struktur untuk file Anda dan mendaftarkannya sebagai tabel dalam katalog data eksternal. Katalog data eksternal dapat berupa AWS Glue, katalog data yang disertakan dengan Amazon Athena, atau metastore Apache Hive Anda sendiri. Anda dapat membuat dan mengelola tabel eksternal baik dari Amazon Redshift menggunakan perintah bahasa definisi data (DDL) atau menggunakan alat lain yang terhubung ke katalog data eksternal. Perubahan pada katalog data eksternal segera tersedia untuk klaster Amazon Redshift Anda.

Secara opsional, Anda dapat mempartisi tabel eksternal pada satu atau lebih kolom. Mendefinisikan partisi sebagai bagian dari tabel eksternal dapat meningkatkan kinerja. Peningkatan terjadi karena pengoptimal kueri Amazon Redshift menghilangkan partisi yang tidak berisi data untuk kueri.

Setelah tabel Redshift Spectrum Anda telah ditentukan, Anda dapat menanyakan dan menggabungkan tabel seperti yang Anda lakukan pada tabel Amazon Redshift lainnya. Redshift Spectrum tidak mendukung operasi pembaruan pada tabel eksternal. Anda dapat menambahkan tabel Redshift Spectrum ke beberapa cluster Amazon Redshift dan menanyakan data yang sama di Amazon S3 dari cluster mana pun di Wilayah yang sama. AWS Saat Anda memperbarui file data Amazon S3, data akan segera tersedia untuk kueri dari salah satu cluster Amazon Redshift Anda.

Katalog AWS Glue Data yang Anda akses mungkin dienkripsi untuk meningkatkan keamanan. Jika AWS Glue katalog dienkripsi, Anda memerlukan kunci AWS Key Management Service (AWS KMS) AWS Glue untuk mengakses katalog. AWS Glue AWS Glue enkripsi katalog tidak tersedia di semua AWS Wilayah. Untuk daftar AWS Wilayah yang didukung, lihat Enkripsi dan Akses Aman AWS Glue di Panduan AWS Glue Pengembang.Untuk informasi selengkapnya tentang enkripsi Katalog AWS Glue Data, lihat Mengenkripsi Katalog AWS Glue Data Anda di Panduan AWS Glue Pengembang.

catatan

Anda tidak dapat melihat detail untuk tabel Redshift Spectrum menggunakan sumber daya yang sama dengan yang Anda gunakan untuk tabel Amazon Redshift standar, PG_TABLE_DEF seperti,, PG_CLASS, atau STV_TBL_PERM information_schema. Jika alat intelijen bisnis atau analitik Anda tidak mengenali tabel eksternal Redshift Spectrum, konfigurasikan aplikasi Anda ke kueri SVV_EXTERNAL_TABLES dan. SVV_EXTERNAL_COLUMNS

Wilayah Spektrum Pergeseran Merah Amazon

Redshift Spectrum tersedia di Wilayah AWS tempat Amazon Redshift tersedia, kecuali ditentukan lain dalam dokumentasi khusus Wilayah. Untuk Wilayah AWS ketersediaan di Wilayah komersial, lihat Titik akhir layanan untuk Redshift API di. Referensi Umum Amazon Web

Pertimbangan Amazon Redshift Spectrum

Perhatikan pertimbangan berikut saat Anda menggunakan Amazon Redshift Spectrum:

  • Cluster Amazon Redshift dan bucket Amazon S3 harus berada di Wilayah yang sama. AWS

  • Redshift Spectrum tidak mendukung peningkatan perutean VPC dengan cluster yang disediakan. Untuk mengakses data Amazon S3, Anda mungkin perlu melakukan langkah konfigurasi tambahan. Untuk informasi selengkapnya, lihat Redshift Spectrum dan perutean VPC yang disempurnakan di Panduan Manajemen Pergeseran Merah Amazon.

  • Redshift Spectrum mendukung alias jalur akses Amazon S3. Untuk informasi selengkapnya, lihat Menggunakan alias gaya ember untuk titik akses Anda di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon. Namun, Redshift Spectrum tidak mendukung VPC dengan alias jalur akses Amazon S3. Untuk informasi selengkapnya, lihat Redshift Spectrum dan perutean VPC yang disempurnakan di Panduan Manajemen Pergeseran Merah Amazon.

  • Anda tidak dapat melakukan pembaruan atau penghapusan operasi pada tabel eksternal. Untuk membuat tabel eksternal baru dalam skema yang ditentukan, Anda dapat menggunakan CREATE EXTERNAL TABLE. Untuk informasi selengkapnya tentang MEMBUAT TABEL EKSTERNAL, lihatCREATE EXTERNAL TABLE. Untuk menyisipkan hasil kueri SELECT ke dalam tabel eksternal yang ada pada katalog eksternal, Anda dapat menggunakan INSERT (tabel eksternal). Untuk informasi selengkapnya tentang INSERT (tabel eksternal), lihatINSERT (tabel eksternal).

  • Kecuali Anda menggunakan AWS Glue Data Catalog yang diaktifkan untuk AWS Lake Formation, Anda tidak dapat mengontrol izin pengguna pada tabel eksternal. Sebagai gantinya, Anda dapat memberikan dan mencabut izin pada skema eksternal. Untuk informasi lebih lanjut tentang bekerja dengan AWS Lake Formation, lihatMenggunakan Redshift Spectrum dengan AWS Lake Formation.

  • Untuk menjalankan kueri Redshift Spectrum, pengguna database harus memiliki izin untuk membuat tabel sementara dalam database. Contoh berikut memberikan izin sementara pada database spectrumdb ke grup spectrumusers pengguna.

    grant temp on database spectrumdb to group spectrumusers;

    Untuk informasi selengkapnya, lihat HIBAH.

  • Saat menggunakan Katalog Data Athena atau Katalog AWS Glue Data sebagai penyimpanan metadata, lihat Kuota dan Batas di Panduan Manajemen Pergeseran Merah Amazon.

  • Redshift Spectrum tidak mendukung Amazon EMR dengan Kerberos.