Garis keturunan data di Amazon DataZone (Pratinjau) - Amazon DataZone

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Garis keturunan data di Amazon DataZone (Pratinjau)

penting

Saat ini, fungsionalitas garis keturunan data di Amazon DataZone ada dalam rilis Pratinjau.

Garis keturunan data di Amazon DataZone adalah fitur yang API digerakkan dan OpenLineage kompatibel yang dapat membantu Anda menangkap dan memvisualisasikan peristiwa garis keturunan, dari sistem yang OpenLineage diaktifkan atau melalui, untuk melacak asal data, melacak transformasiAPIs, dan melihat konsumsi data lintas organisasi. Ini memberi Anda pandangan menyeluruh ke aset data Anda untuk melihat asal aset dan rantai koneksinya. Data garis keturunan mencakup informasi tentang aktivitas di dalam katalog data bisnis Amazon DataZone, termasuk informasi tentang aset yang dikatalogkan, pelanggan aset tersebut, dan aktivitas yang terjadi di luar katalog data bisnis yang diambil secara terprogram menggunakan. APIs

Menggunakan DataZone Amazon OpenLineage -compatibleAPIs, administrator domain dan produsen data dapat menangkap dan menyimpan peristiwa silsilah di luar apa yang tersedia di Amazon, termasuk transformasi di Amazon DataZone S3, AWS Glue, dan layanan lainnya. Ini memberikan pandangan komprehensif untuk konsumen data dan membantu mereka mendapatkan kepercayaan tentang asal aset, sementara produsen data dapat menilai dampak perubahan aset dengan memahami penggunaannya. Selain itu, DataZone Amazon membuat garis keturunan dengan setiap peristiwa, memungkinkan pengguna untuk memvisualisasikan garis keturunan kapan saja atau membandingkan transformasi di seluruh aset atau riwayat pekerjaan. Garis keturunan historis ini memberikan pemahaman yang lebih dalam tentang bagaimana data telah berevolusi, penting untuk pemecahan masalah, audit, dan memastikan integritas aset data.

Dengan garis keturunan data, Anda dapat mencapai hal berikut di Amazon: DataZone

  • Memahami asal data: mengetahui dari mana data berasal menumbuhkan kepercayaan pada data dengan memberi Anda pemahaman yang jelas tentang asal-usul, ketergantungan, dan transformasinya. Transparansi ini membantu dalam membuat keputusan berbasis data yang percaya diri.

  • Memahami dampak perubahan pada jaringan data: ketika perubahan dilakukan pada pipa data, garis keturunan dapat digunakan untuk mengidentifikasi semua konsumen hilir yang akan terpengaruh. Ini membantu memastikan bahwa perubahan dilakukan tanpa mengganggu aliran data penting.

  • Identifikasi akar penyebab masalah kualitas data: jika masalah kualitas data terdeteksi dalam laporan hilir, garis keturunan, terutama garis keturunan tingkat kolom, dapat digunakan untuk melacak data kembali (pada tingkat kolom) untuk mengidentifikasi masalah kembali ke sumbernya. Ini dapat membantu insinyur data untuk mengidentifikasi dan memperbaiki masalah.

  • Meningkatkan tata kelola dan kepatuhan data: garis keturunan tingkat kolom dapat digunakan untuk menunjukkan kepatuhan terhadap tata kelola data dan peraturan privasi. Misalnya, garis keturunan tingkat kolom dapat digunakan untuk menunjukkan di mana data sensitif (sepertiPII) disimpan dan bagaimana diproses dalam aktivitas hilir.

Jenis simpul garis keturunan di Amazon DataZone

di Amazon DataZone, informasi garis keturunan data disajikan dalam node yang mewakili tabel dan tampilan. Bergantung pada konteks proyek, misalnya, proyek yang dipilih di kiri atas di portal data, produsen dapat melihat keduanya, inventaris dan aset yang dipublikasikan, sedangkan konsumen hanya dapat melihat aset yang dipublikasikan. Saat pertama kali membuka tab silsilah di halaman detail aset, simpul kumpulan data yang dikatalogkan adalah titik awal untuk menavigasi hulu atau hilir melalui simpul garis keturunan grafik garis keturunan Anda.

Berikut ini adalah jenis node garis keturunan data yang didukung di Amazon: DataZone

  • Dataset node - tipe node ini mencakup informasi garis keturunan data tentang aset data tertentu.

    • Node dataset yang menyertakan informasi tentang AWS Aset Glue atau Amazon Redshift yang diterbitkan dalam DataZone katalog Amazon dibuat secara otomatis dan menyertakan yang sesuai AWS Glue atau ikon Amazon Redshift di dalam node.

    • Node kumpulan data yang menyertakan informasi tentang aset yang tidak dipublikasikan di DataZone katalog Amazon, dibuat secara manual oleh administrator domain (produsen) dan diwakili oleh ikon aset kustom default di dalam node.

  • Job (run) node - tipe node ini menampilkan rincian pekerjaan, termasuk run terbaru dari pekerjaan tertentu dan rincian run. Node ini juga menangkap beberapa proses pekerjaan dan dapat dilihat di tab History dari detail node. Anda dapat melihat detail node dengan memilih ikon node.

Atribut kunci dalam simpul garis keturunan

sourceIdentifierAtribut dalam simpul garis keturunan mewakili peristiwa yang terjadi pada kumpulan data. Simpul garis keturunan adalah pengidentifikasi kumpulan data (tabel/tampilan dll). sourceIdentifier Ini digunakan untuk penegakan keunikan pada node garis keturunan. Misalnya, tidak mungkin ada dua simpul garis keturunan yang sama. sourceIdentifier Berikut ini adalah contoh sourceIdentifier nilai untuk berbagai jenis node:

  • Untuk node dataset dengan tipe dataset masing-masing:

    • Aset: assetId amazon.datazone.asset/< >

    • Daftar (aset yang diterbitkan): listingId amazon.datazone.listing/< >

    • AWS <region><account-id><database>Glue tabel: arn:aws:lem: ::meja//<table-name>

    • <redshift/redshift-serverless> <region><account-id><table-type (table/view etc) > <database><schema>Tabel/tampilan Amazon Redshift: arn:aws::: :/</>///clusterIdentifierworkgroupName<table-name>

    • Untuk jenis node dataset lainnya yang diimpor menggunakan peristiwa run open lineage,<namespace>/<name>dari dataset input/output digunakan pada node. sourceIdentifier

  • Untuk pekerjaan:

    • <jobs_namespace>Untuk node pekerjaan yang diimpor menggunakan event open lineage run,. <job_name>digunakan sebagaisourceIdentifier.

  • Untuk pekerjaan berjalan:

    • <jobs_namespace>Untuk node job run yang diimpor menggunakan event open lineage run,. <job_name>/<run_id>digunakan sebagaisourceIdentifier.

Untuk aset yang dibuat menggunakan createAssetAPI, sourceIdentifier harus diperbarui menggunakan createAssetRevision API untuk mengaktifkan pemetaan aset ke sumber daya hulu.

Memvisualisasikan garis keturunan data

Halaman detail DataZone aset Amazon menyediakan representasi grafis dari garis keturunan data, sehingga lebih mudah untuk memvisualisasikan hubungan data hulu atau hilir. Halaman detail aset menyediakan kemampuan berikut untuk menavigasi grafik:

  • Garis keturunan tingkat kolom: perluas garis keturunan tingkat kolom bila tersedia di node kumpulan data. Ini secara otomatis menampilkan hubungan dengan node dataset hulu atau hilir jika informasi kolom sumber tersedia.

  • Pencarian kolom: ketika tampilan default untuk jumlah kolom adalah 10. Jika ada lebih dari 10 kolom, pagination diaktifkan untuk menavigasi ke kolom lainnya. Untuk melihat kolom tertentu dengan cepat, Anda dapat mencari di node dataset yang hanya mencantumkan kolom yang dicari.

  • Lihat node kumpulan data saja: jika Anda ingin beralih untuk hanya melihat node garis keturunan kumpulan data dan memfilter node pekerjaan, Anda dapat memilih ikon Open view control di kiri atas penampil grafik dan beralih opsi Display dataset node only. Ini akan menghapus semua node pekerjaan dari grafik dan memungkinkan Anda menavigasi hanya node dataset. Perhatikan bahwa ketika tampilan hanya node dataset diaktifkan, grafik tidak dapat diperluas ke hulu atau hilir.

  • Panel detail: Setiap simpul garis keturunan memiliki detail yang ditangkap dan ditampilkan saat dipilih.

    • Node dataset memiliki panel detail untuk menampilkan semua detail yang diambil untuk node tersebut untuk stempel waktu tertentu. Setiap node dataset memiliki 3 tab, yaitu: Info Lineage, Schema, dan tab History. Tab riwayat mencantumkan berbagai versi peristiwa garis keturunan yang diambil untuk node tersebut. Semua detail yang diambil dari API ditampilkan menggunakan formulir metadata atau penampil. JSON

    • Job node memiliki panel detail untuk menampilkan rincian pekerjaan dengan tab, yaitu: Info pekerjaan, dan History. Panel detail juga menangkap kueri atau ekspresi yang ditangkap sebagai bagian dari pekerjaan yang dijalankan. Tab histori mencantumkan versi berbeda dari acara job run yang diambil untuk pekerjaan itu. Semua detail yang diambil dari API ditampilkan menggunakan formulir metadata atau penampil. JSON

  • Tab versi: semua node garis keturunan di garis keturunan DataZone data Amazon memiliki versi. Untuk setiap node dataset atau node pekerjaan, versi diambil sebagai riwayat dan memungkinkan Anda menavigasi di antara versi yang berbeda untuk mengidentifikasi apa yang telah berubah dari waktu ke waktu. Setiap versi membuka tab baru di halaman silsilah untuk membantu membandingkan atau membedakan.

Otorisasi garis keturunan data di Amazon DataZone

Menulis izin - untuk mempublikasikan data silsilah ke Amazon DataZone, Anda harus memiliki IAM peran dengan kebijakan izin yang menyertakan tindakan ALLOW pada. PostLineageEvent API IAMOtorisasi ini terjadi pada lapisan API Gateway.

Izin baca - ada dua operasi: GetLineageNode dan ListLineageNodeHistory yang disertakan dalam kebijakan AmazonDataZoneDomainExecutionRolePolicy terkelola dan oleh karena itu setiap pengguna di DataZone domain Amazon dapat memanggilnya untuk melintasi grafik garis keturunan data.

Pengalaman sampel garis keturunan data di Amazon DataZone

Anda dapat menggunakan pengalaman sampel garis keturunan data untuk menelusuri dan memahami garis keturunan data di DataZone Amazon, termasuk melintasi hulu atau hilir dalam grafik garis keturunan data Anda, menjelajahi versi, dan garis keturunan tingkat kolom.

Selesaikan prosedur berikut untuk mencoba pengalaman garis keturunan data sampel di Amazon: DataZone

  1. Arahkan ke portal DataZone data Amazon URL dan masuk menggunakan single sign-on (SSO) atau AWS kredensialnya. Jika Anda DataZone administrator Amazon, Anda dapat menavigasi ke DataZone konsol Amazon di https://console.aws.amazon.com/datazone dan masuk dengan Akun AWS tempat domain dibuat, lalu pilih Buka portal data.

  2. Pilih aset data apa pun yang tersedia untuk membuka halaman detail aset.

  3. Pada halaman detail aset, pilih tab Lineage lalu pilih Pratinjau, lalu pilih Coba silsilah sampel.

  4. Di jendela pop up garis keturunan data, pilih Mulai tur garis keturunan data yang dipandu.

    Pada titik ini, tab layar penuh yang menyediakan semua ruang informasi garis keturunan ditampilkan. Grafik garis keturunan data sampel awalnya ditampilkan dengan simpul dasar dengan kedalaman 1 di kedua ujungnya, hulu dan hilir. Anda dapat memperluas grafik hulu atau hilir. Informasi kolom juga tersedia bagi Anda untuk memilih dan melihat bagaimana garis keturunan mengalir melalui node.

Menggunakan garis keturunan DataZone data Amazon secara terprogram

Untuk menggunakan fungsionalitas garis keturunan data di Amazon DataZone, Anda dapat memanggil yang berikut ini: APIs