Menggunakan HyperLogLog sketsa di Amazon Redshift - Amazon Redshift

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan HyperLogLog sketsa di Amazon Redshift

HyperLogLog adalah algoritma yang digunakan untuk memperkirakan kardinalitas multiset. Kardinalitas mengacu pada jumlah nilai yang berbeda dalam multiset. Misalnya, dalam himpunan {4,3,6,2,2,6,4,3,6,2,2,3}, kardinalitas adalah 4 dengan nilai berbeda 4, 3, 6, dan 2.

Ketepatan HyperLogLog algoritma (juga dikenal sebagai nilai m) dapat mempengaruhi keakuratan estimasi kardinalitas. Selama estimasi kardinalitas, Amazon Redshift menggunakan nilai presisi default 15. Nilai ini bisa sampai 26 untuk dataset yang lebih kecil. Dengan demikian, rata-rata kesalahan relatif berkisar antara 0,01-0,6%.

Saat menghitung kardinalitas multiset, HyperLogLog algoritma menghasilkan konstruksi yang disebut sketsa HLL. Sketsa HLL merangkum informasi tentang nilai-nilai yang berbeda dalam multiset. Tipe data Amazon Redshift HLLSKETCH mewakili nilai sketsa tersebut. Tipe data ini dapat digunakan untuk menyimpan sketsa dalam tabel Amazon Redshift. Selain itu, Amazon Redshift mendukung operasi yang dapat diterapkan ke nilai HLLSKETCH sebagai fungsi agregat dan skalar. Anda dapat menggunakan fungsi-fungsi ini untuk mengekstrak kardinalitas HLLSKETCH dan menggabungkan beberapa nilai HLLSKETCH.

Tipe data HLLSKETCH menawarkan manfaat kinerja kueri yang signifikan saat mengekstraksi kardinalitas dari kumpulan data besar. Anda dapat melakukan pra-agregat kumpulan data ini menggunakan nilai HLLSKETCH dan menyimpannya dalam tabel. Amazon Redshift dapat mengekstrak kardinalitas langsung dari nilai HLLSKETCH yang disimpan tanpa mengakses kumpulan data yang mendasarinya.

Saat memproses sketsa HLL, Amazon Redshift melakukan pengoptimalan yang meminimalkan jejak memori sketsa dan memaksimalkan ketepatan kardinalitas yang diekstraksi. Amazon Redshift menggunakan dua representasi untuk sketsa HLL, jarang dan padat. HLLSKETCH dimulai dalam format jarang. Saat nilai baru dimasukkan ke dalamnya, ukurannya meningkat. Setelah ukurannya mencapai ukuran representasi padat, Amazon Redshift secara otomatis mengubah sketsa dari jarang menjadi padat.

Amazon Redshift mengimpor, mengekspor, dan mencetak HLLSKETCH sebagai JSON saat sketsa dalam format jarang. Amazon Redshift mengimpor, mengekspor, dan mencetak HLLSKETCH sebagai string Base64 saat sketsa dalam format padat. Untuk informasi selengkapnya tentang BONGKAR, lihatMembongkar tipe data HLLSKETCH. Untuk mengimpor data teks atau nilai dipisahkan koma (CSV) ke Amazon Redshift, gunakan perintah COPY. Untuk informasi selengkapnya, lihat Memuat tipe data HLLSKETCH.

Untuk informasi tentang fungsi yang digunakan HyperLogLog, lihatHyperLogLog fungsi.