Kueri data di Amazon Athena atau Amazon Redshift - Amazon DataZone

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kueri data di Amazon Athena atau Amazon Redshift

Di Amazon DataZone, setelah pelanggan memiliki akses ke aset dalam katalog, mereka dapat menggunakannya (kueri dan analisis) menggunakan Amazon Athena atau editor kueri Amazon Redshift v2. Anda harus menjadi pemilik proyek atau kontributor untuk menyelesaikan tugas ini. Bergantung pada cetak biru yang diaktifkan dalam proyek, Amazon DataZone menyediakan tautan ke Amazon Athena dan/atau editor kueri Amazon Redshift v2 di panel sisi kanan halaman proyek di portal data.

  1. Arahkan ke portal DataZone data Amazon URL dan masuk menggunakan single sign-on (SSO) atau AWS kredensialnya. Jika Anda DataZone administrator Amazon, Anda dapat menavigasi ke DataZone konsol Amazon di https://console.aws.amazon.com/datazone dan masuk dengan Akun AWS tempat domain dibuat, lalu pilih Buka portal data.

  2. Di portal DataZone data Amazon, pilih Jelajahi Daftar Proyek dan kemudian temukan dan pilih proyek tempat Anda memiliki data yang ingin Anda analisis.

  3. Jika cetak biru Data Lake diaktifkan pada proyek ini, tautan ke Amazon Athena ditampilkan di panel sisi kanan di halaman beranda proyek.

    Jika cetak biru Data Warehouse diaktifkan pada proyek ini, tautan ke editor kueri ditampilkan di panel sisi kanan pada halaman beranda proyek.

    catatan

    Cetak biru didefinisikan dalam profil lingkungan yang dengannya proyek dibuat.

Pilih tautan Amazon Athena untuk membuka editor kueri Amazon Athena di tab baru di browser menggunakan kredensi proyek untuk otentikasi. DataZoneProyek Amazon yang Anda kerjakan secara otomatis dipilih sebagai workgroup saat ini di editor kueri.

Di editor kueri Amazon Athena, tulis dan jalankan kueri Anda. Beberapa tugas umum meliputi:

Kueri dan analisis aset berlangganan Anda

Jika akses ke aset yang dilanggani project Anda tidak diberikan secara otomatis oleh Amazon DataZone, Anda harus diberi wewenang untuk mengakses data yang mendasarinya. Untuk informasi selengkapnya tentang cara memberikan akses ke aset ini, lihatBerikan akses untuk langganan yang disetujui ke aset yang tidak dikelola.

Jika akses ke aset yang dilanggani project Anda diberikan secara otomatis oleh Amazon DataZone, Anda dapat menjalankan SQL kueri pada tabel dan melihat hasilnya di Amazon Athena. Untuk informasi lebih lanjut tentang penggunaan SQL di Amazon Athena, lihat SQLreferensi untuk Athena.

Saat Anda menavigasi ke editor kueri Amazon Athena setelah memilih tautan Amazon Athena di panel sisi kanan di halaman beranda proyek, tarik-turun Proyek ditampilkan di sudut kanan atas editor kueri Amazon Athena dan konteks proyek Anda dipilih secara otomatis.

Anda dapat melihat database berikut di dropdown Database:

  • Database penerbitan ({environmentname}_pub_db). Tujuan dari database ini adalah untuk memberi Anda lingkungan di mana Anda dapat menghasilkan data baru dalam konteks proyek Anda dan kemudian dapat mempublikasikan data ini ke dalam DataZone katalog Amazon. Pemilik proyek dan kontributor telah membaca dan menulis akses ke database ini. Pemirsa proyek hanya memiliki akses baca ke database ini.

  • Database berlangganan ({environmentname}_sub_db). Tujuan dari database ini adalah untuk berbagi dengan Anda data yang telah Anda berlangganan sebagai anggota proyek di DataZone katalog Amazon, dan untuk memungkinkan Anda untuk menanyakan data tersebut.

Buat tabel baru

Jika Anda telah terhubung ke bucket S3 eksternal, Anda dapat menggunakan Amazon Athena untuk menanyakan dan menganalisis aset dari bucket Amazon S3 eksternal. Dalam skenario ini, Amazon DataZone tidak memiliki izin untuk memberikan akses langsung ke data yang mendasarinya di bucket Amazon S3 eksternal, dan data Amazon S3 eksternal yang dibuat di luar proyek tidak dikelola secara otomatis di Lake Formation, dan tidak dapat dikelola oleh Amazon. DataZone Alternatifnya adalah menyalin data dari bucket Amazon S3 eksternal ke tabel baru di dalam bucket Amazon S3 proyek menggunakan pernyataan di Amazon CREATE TABLE Athena. Saat Anda menjalankan CREATE TABLE kueri di Amazon Athena, Anda mendaftarkan tabel Anda dengan AWS Glue Data Catalog.

Untuk menentukan jalur ke data Anda di Amazon S3, gunakan LOCATION properti, seperti yang ditunjukkan pada contoh berikut:

CREATE EXTERNAL TABLE 'test_table'( ... ) ROW FORMAT ... STORED AS INPUTFORMAT ... OUTPUTFORMAT ... LOCATION 's3://bucketname/folder/'

Untuk informasi selengkapnya, lihat Lokasi tabel di Amazon S3.

Buat tabel dari hasil kueri (CTAS) dari bucket S3 eksternal

Saat Anda berlangganan aset, akses ke data yang mendasarinya hanya baca. Anda dapat menggunakan Amazon Athena untuk membuat salinan tabel. Di Amazon Athena, A CREATE TABLE AS SELECT (CTAS) kueri membuat tabel baru di Amazon Athena dari hasil pernyataan dari kueri SELECT lain. Untuk informasi tentang CTAS sintaks, lihat CREATETABLEAS.

Contoh berikut membuat tabel dengan menyalin semua kolom dari tabel:

CREATE TABLE new_table AS SELECT * FROM old_table;

Dalam variasi berikut dari contoh yang sama, AndaSELECTpernyataan juga mencakupWHEREKlausul. Dalam kasus ini, kueri memilih hanya baris dari tabel yang memenuhiWHEREKlausul:

CREATE TABLE new_table AS SELECT * FROM old_table WHERE condition;

Contoh berikut membuat kueri baru yang berjalan pada satu set kolom dari tabel lain:

CREATE TABLE new_table AS SELECT column_1, column_2, ... column_n FROM old_table;

Variasi ini dari contoh yang sama menciptakan tabel baru dari kolom tertentu dari beberapa tabel:

CREATE TABLE new_table AS SELECT column_1, column_2, ... column_n FROM old_table_1, old_table_2, ... old_table_n;

Tabel yang baru dibuat ini sekarang menjadi bagian dari proyek Anda AWS Glue database, dan dapat dibuat dapat ditemukan oleh orang lain dan dibagikan dengan DataZone proyek Amazon lainnya dengan menerbitkan data sebagai aset ke katalog Amazon DataZone.

Di portal DataZone data Amazon, buka lingkungan yang menggunakan cetak biru gudang data. Pilih tautan Amazon Redshift di panel sebelah kanan pada halaman lingkungan. Ini membuka dialog konfirmasi dengan detail penting yang membantu Anda membuat koneksi ke klaster Amazon Redshift lingkungan atau grup kerja Amazon Redshift Serverless di editor kueri Amazon Redshift v2.0. Setelah Anda mengidentifikasi detail yang diperlukan untuk membuat koneksi, pilih tombol Buka Amazon Redshift. Ini membuka editor kueri Amazon Redshift v2.0 di tab baru di browser menggunakan kredensil sementara dari lingkungan Amazon. DataZone

Di editor kueri, ikuti langkah-langkah di bawah ini tergantung pada apakah lingkungan Anda menggunakan workgroup Amazon Redshift Tanpa Server atau cluster Amazon Redshift.

Untuk grup kerja Amazon Redshift Tanpa Server

  1. Di editor kueri, identifikasi grup kerja Amazon Redshift Serverless DataZone lingkungan Amazon Anda, klik kanan dan pilih Buat koneksi.

  2. Pilih Pengguna Federasi untuk otentikasi.

  3. Berikan nama database DataZone lingkungan Amazon.

  4. Pilih Buat koneksi.

Untuk cluster Amazon Redshift:

  1. Di editor kueri, identifikasi klaster Amazon Redshift DataZone lingkungan Amazon Anda, klik kanan dan pilih Buat koneksi.

  2. Pilih Kredensyal sementara menggunakan IAM identitas Anda untuk otentikasi.

  3. Jika metode otentikasi di atas tidak tersedia, buka Pengaturan akun dengan memilih tombol roda gigi di sudut kiri bawah, pilih Otentikasi dengan IAM kredensi dan simpan. Ini adalah one-time-only pengaturan.

  4. Berikan nama database DataZone lingkungan Amazon untuk membuat koneksi.

  5. Pilih Buat koneksi.

Sekarang Anda dapat mulai melakukan kueri terhadap tabel dan tampilan dalam klaster Amazon Redshift atau grup kerja Amazon Redshift Tanpa Server yang dikonfigurasi untuk lingkungan Amazon Anda. DataZone

Setiap tabel Amazon Redshift atau tampilan yang telah Anda langgani ditautkan ke cluster Amazon Redshift atau workgroup Amazon Redshift Tanpa Server yang dikonfigurasi untuk lingkungan. Anda dapat berlangganan tabel dan tampilan serta mempublikasikan tabel dan tampilan baru apa pun yang Anda buat di cluster atau database lingkungan Anda.

Sebagai contoh, mari kita ambil skenario di mana lingkungan ditautkan ke cluster Amazon Redshift yang dipanggil redshift-cluster-1 dan database yang dipanggil dev dalam cluster itu. Menggunakan portal DataZone data Amazon, Anda dapat menanyakan tabel dan tampilan yang ditambahkan ke lingkungan Anda. Di bawah Analytics tools bagian di panel sisi kanan portal data, Anda dapat memilih tautan Amazon Redshift untuk lingkungan ini, yang membuka editor kueri. Anda kemudian dapat mengklik kanan pada redshift-cluster-1 cluster dan membuat koneksi menggunakan kredensi sementara menggunakan identitas Anda. IAM Setelah koneksi dibuat, Anda dapat melihat semua tabel dan tampilan yang dapat diakses lingkungan Anda di bawah database dev.