Siklus hidup danau data - Praktik Terbaik Amazon Connect Data Lake

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siklus hidup danau data

Membangun danau data biasanya melibatkan lima tahap:

  • Menyiapkan penyimpanan

  • Memindahkan data

  • Mempersiapkan dan membuat katalog data

  • Mengkonfigurasi kebijakan keamanan

  • Membuat data tersedia untuk konsumsi

Gambar berikut adalah diagram arsitektur tingkat tinggi dari data lake pusat kontak Amazon Connect yang terintegrasi dengan analitik AWS dan layanan kecerdasan buatan/pembelajaran mesin (AI/ML). Bagian berikut mencakup skenario dan layanan AWS yang ditunjukkan pada gambar ini.

Diagram yang menunjukkan data lake pusat kontak Amazon Connect dengan analitik AWS dan layanan AI/ML/

Data lake pusat kontak Amazon Connect dengan analitik AWS dan layanan AI/ML

Penyimpanan

Amazon S3 adalah layanan penyimpanan objek yang menawarkan skalabilitas, ketersediaan data, keamanan, dan kinerja terdepan di industri. S3 memberikan daya tahan 99,999999999% dan ketersediaan 99,99% dengan konsistensi yang kuat dan penyimpanan data tak terbatas secara global. Anda dapat menggunakan Replikasi Lintas Wilayah (CRR) untuk menyalin data di seluruh bucket S3 di beberapa Wilayah untuk kepatuhan terhadap peraturan dan persyaratan latensi rendah. S3 menskalakan throughput secara otomatis untuk kinerja dan efisiensi operasional.

Bucket dan objek S3 bersifat pribadi dengan Akses Publik Blok S3 diaktifkan secara default ke semua Wilayah secara global. Anda dapat menyiapkan kontrol akses terpusat pada sumber daya S3 menggunakan kebijakan bucket, kebijakan AWS Identity and Access Management(IAM), dan daftar kontrol akses (). ACLs Anda dapat mengevaluasi dan mengidentifikasi setiap bucket dengan akses publik menggunakan Access Analyzer untuk S3. Dengan awalan dan penandaan objek, Anda dapat mengelola kontrol akses, tiering penyimpanan, dan aturan replikasi pada granularitas tingkat objek.

AWS CloudTrailmencatat setiap panggilan API ke logging akses server S3. Audit inventaris S3 dan melaporkan replikasi dan status enkripsi untuk data Anda.

S3 Intelligent-Tiering memberikan penghematan biaya otomatis dengan memindahkan data antara tingkatan akses yang sering dan jarang ketika pola akses berubah, tanpa dampak kinerja atau overhead operasional. S3 Glacier Deep Archive menghemat hingga 95% biaya penyimpanan untuk objek yang jarang diakses yang memerlukan retensi jangka panjang.

Menyimpan data dalam format kolumnar seperti Apache Parquet dan Optimized Row Columnar (ORC) memungkinkan kueri lebih cepat dan mengurangi biaya pemrosesan dengan Amazon Athena. Opsi kompresi seperti Snappy with Parquet mengurangi kebutuhan kapasitas dan biaya penyimpanan.

Dengan S3 Select dan S3 Glacier Select, Anda dapat melakukan kueri metadata objek menggunakan ekspresi bahasa kueri terstruktur (SQL) tanpa memindahkan objek ke penyimpanan data lain.

Operasi Batch S3 mengotomatiskan operasi massal pada objek S3, seperti memperbarui metadata objek dan properti, melakukan tugas manajemen penyimpanan, memodifikasi kontrol akses, dan memulihkan objek yang diarsipkan dari S3 Glacier.

S3 Access Points menyederhanakan dan menggabungkan akses untuk data bersama di S3 oleh tim dan aplikasi yang berbeda. Setiap titik akses dikaitkan dengan nama DNS unik untuk satu bucket. Anda dapat membuat kebijakan kontrol layanan (SCPs) untuk membatasi titik akses ke Amazon Virtual Private Cloud (Amazon VPC) dan mengisolasi data dalam jaringan pribadi Anda.

S3 Transfer Acceleration memungkinkan transfer file jarak jauh antara lingkungan klien Anda dan bucket S3.

Seiring pertumbuhan data lake Anda, S3 Storage Lens memberikan visibilitas seluruh organisasi ke dalam penggunaan penyimpanan objek dan tren aktivitas dengan rekomendasi yang dapat ditindaklanjuti untuk mengurangi biaya dan overhead operasional.

Tertelan

AWS menyediakan portofolio layanan transfer data yang komprehensif untuk memindahkan data yang ada ke dalam data lake terpusat. Amazon Storage Gateway dan AWS Direct Connect dapat memenuhi kebutuhan penyimpanan cloud hybrid. Untuk transfer data online, pertimbangkan untuk menggunakan AWS DataSync dan Amazon Kinesis. Gunakan AWS Snow Family untuk transfer data offline.

  • AWS Storage Gatewaymemperluas lingkungan lokal Anda ke penyimpanan AWS dengan mengganti pustaka tape dengan penyimpanan cloud, menyediakan berbagi file yang didukung penyimpanan cloud, atau membuat cache latensi rendah untuk mengakses data Anda di AWS dari lingkungan lokal.

  • AWS Direct Connectmenetapkan konektivitas pribadi antara lingkungan lokal Anda dan AWS untuk mengurangi biaya jaringan, meningkatkan throughput, dan memberikan pengalaman jaringan yang konsisten.

  • AWS DataSync dapat mentransfer jutaan file ke S3, Amazon Elastic File System (Amazon EFS), atau Amazon FSx untuk Windows File Server sambil mengoptimalkan pemanfaatan jaringan.

  • Amazon Kinesis menyediakan cara aman untuk menangkap dan memuat data streaming ke S3. Amazon Data Firehose adalah layanan yang dikelola sepenuhnya untuk mengirimkan data streaming real-time langsung ke S3. Firehose secara otomatis menskalakan agar sesuai dengan volume dan throughput data streaming dan tidak memerlukan administrasi berkelanjutan. Anda dapat mengubah data streaming menggunakan kompresi, enkripsi, pengelompokan data, atau AWS Lambdafungsi dalam Firehose sebelum menyimpan data di S3. Enkripsi Firehose mendukung enkripsi sisi server S3 dengan (). AWS Key Management ServiceAWS KMS Atau, Anda dapat mengenkripsi data dengan kunci khusus Anda. Firehose dapat menggabungkan dan mengirimkan beberapa catatan masuk sebagai objek S3 tunggal untuk mengurangi biaya dan mengoptimalkan throughput.

    AWS Snow Family menyediakan mekanisme transfer data offline. AWS Snowball Edgemenghadirkan perangkat komputasi tepi portabel dan kokoh untuk pengumpulan, pemrosesan, dan migrasi data. Untuk transfer data skala exabyte, Anda dapat menggunakan AWS Snowmobile untuk memindahkan volume data besar-besaran ke cloud.

    DistCpmenyediakan kemampuan salinan terdistribusi untuk memindahkan data dalam ekosistem Hadoop. S3 DisctCp adalah ekstensi untuk DistCp dioptimalkan untuk memindahkan data antara Hadoop Distributed File System (HDFS) dan S3. Blog ini memberikan informasi tentang cara memindahkan data antara HDFS dan S3 menggunakan S3. DistCp

Katalogisasi

Salah satu tantangan umum dengan arsitektur data lake adalah kurangnya pengawasan pada isi data mentah yang disimpan di danau data. Organizations membutuhkan tata kelola, konsistensi semantik, dan kontrol akses untuk menghindari jebakan menciptakan rawa data tanpa kurasi.

AWS Lake Formationdapat mengelola konsumsi data melalui AWS Gluedengan secara otomatis mengklasifikasikan data dan menyimpan definisi, skema, dan metadata dalam katalog data pusat. Lake Formation memiliki kemampuan pembelajaran mesin bawaan untuk deduplikasi dan menemukan catatan yang cocok untuk meningkatkan kualitas data. Untuk analisis yang lebih cepat, Lake Formation mengubah data menjadi Apache Parquet dan ORC sebelum menyimpannya di danau data S3 Anda. Anda dapat menentukan kebijakan akses, termasuk kontrol akses tingkat tabel dan kolom, atau menerapkan enkripsi data saat istirahat. Dengan penegakan keamanan yang konsisten, pengguna Anda dapat mengakses dan menganalisis kumpulan data yang dikuratori dan terpusat menggunakan pilihan layanan analisis dan pembelajaran mesin mereka.

AWS Glue DataBrew, alat persiapan data visual, memungkinkan pemilik data, ahli materi pelajaran, atau pengguna dari semua keahlian untuk berpartisipasi dalam proses persiapan data. Tanpa harus menulis kode apa pun, tim Anda dapat memilih dari lebih dari 250 transformasi pra-bangun untuk mengotomatiskan tugas persiapan data, termasuk memfilter anomali data, mengonversi data ke format standar, dan mengoreksi nilai yang tidak valid. Data yang ditransformasikan siap untuk proyek analitik dan pembelajaran mesin tingkat lanjut.

Keamanan

Amazon Connect memisahkan data berdasarkan ID akun AWS dan ID instans Amazon Connect untuk memastikan akses data resmi pada tingkat instans Amazon Connect.

Amazon Connect mengenkripsi data kontak informasi identitas pribadi (PII) dan profil pelanggan saat istirahat menggunakan kunci terbatas waktu khusus untuk instans Amazon Connect Anda. Enkripsi sisi server S3 mengamankan rekaman suara dan obrolan saat istirahat menggunakan kunci data KMS unik per akun AWS. Anda mempertahankan kontrol keamanan lengkap untuk mengonfigurasi akses pengguna ke rekaman panggilan di bucket S3 Anda, termasuk melacak siapa yang mendengarkan atau menghapus rekaman panggilan. Amazon Connect mengenkripsi cetak suara pelanggan dengan kunci KMS milik layanan untuk melindungi identitas pelanggan. Semua data yang dipertukarkan antara Amazon Connect dan layanan AWS lainnya, atau aplikasi eksternal selalu dienkripsi dalam perjalanan menggunakan enkripsi transport layer security (TLS) standar industri.

Mengamankan data lake memerlukan kontrol berbutir halus untuk memastikan akses dan penggunaan data yang sah. Sumber daya S3 bersifat pribadi dan hanya dapat diakses oleh pemilik sumber dayanya secara default. Pemilik sumber daya dapat membuat kombinasi kebijakan IAM berbasis sumber daya atau berbasis identitas untuk memberikan dan mengelola izin ke bucket dan objek S3. Kebijakan berbasis sumber daya seperti kebijakan bucket dan ACLs dilampirkan pada sumber daya. Sebaliknya, kebijakan berbasis identitas dilampirkan ke pengguna, grup, atau peran IAM di akun AWS Anda.

Kami merekomendasikan kebijakan berbasis identitas untuk sebagian besar lingkungan data lake untuk menyederhanakan manajemen akses sumber daya dan izin layanan untuk pengguna data lake Anda. Anda dapat membuat pengguna, grup, dan peran IAM di akun AWS dan mengaitkannya dengan kebijakan berbasis identitas yang memberikan akses ke sumber daya S3.

Model AWS Lake Formation izin bekerja bersama dengan izin IAM untuk mengatur akses danau data. Model izin Lake Formation menggunakan mekanisme GRANT atau REVOKE gaya sistem manajemen basis data (DBMS). Izin IAM berisi kebijakan berbasis identitas. Misalnya, pengguna harus lulus pemeriksaan izin dengan izin IAM dan Lake Formation sebelum mengakses sumber daya data lake.

AWS CloudTrail melacak panggilan Amazon Connect API, termasuk alamat IP dan identitas pemohon serta tanggal dan waktu permintaan dalam Riwayat CloudTrail Acara. Membuat AWS CloudTrail jejak memungkinkan pengiriman AWS CloudTrail log secara terus menerus ke bucket S3 Anda.

Amazon Athena Workgroups dapat memisahkan eksekusi kueri dan mengontrol akses oleh pengguna, tim, atau aplikasi menggunakan kebijakan berbasis sumber daya. Anda dapat menerapkan kontrol biaya dengan membatasi penggunaan data pada Workgroups.

Pemantauan

Observabilitas sangat penting untuk memastikan ketersediaan, keandalan, dan kinerja pusat kontak dan danau data. Amazon CloudWatch menyediakan visibilitas seluruh sistem untuk pemanfaatan sumber daya, kinerja aplikasi, dan kesehatan operasional. Log informasi yang relevan dari alur kontak Amazon Connect ke Amazon CloudWatch dan buat notifikasi real-time saat kinerja operasional turun di bawah ambang batas yang telah ditentukan.

Amazon Connect mengirimkan data penggunaan instans sebagai CloudWatch metrik Amazon dalam interval satu menit. Retensi data untuk CloudWatch metrik Amazon adalah dua minggu. Tentukan persyaratan penyimpanan log dan kebijakan siklus hidup sejak dini untuk memastikan kepatuhan terhadap peraturan dan penghematan biaya untuk arsip data jangka panjang.

Amazon CloudWatch Logs menyediakan cara sederhana untuk memfilter data log dan mengidentifikasi peristiwa ketidakpatuhan untuk investigasi insiden dan mempercepat resolusi. Anda dapat menyesuaikan alur kontak untuk mendeteksi penelepon berisiko tinggi atau aktivitas yang berpotensi curang. Misalnya, Anda dapat memutuskan kontak masuk yang ada di daftar Tolak yang telah ditentukan sebelumnya.

Analitik

Data lake pusat kontak yang dibangun di atas portofolio analitik deskriptif, prediktif, dan real-time membantu Anda mengekstrak wawasan yang bermakna dan menanggapi pertanyaan bisnis penting.

Setelah data Anda mendarat di data lake S3, Anda dapat menggunakan layanan analitik yang dibuat khusus seperti Amazon Athena dan Amazon QuickSight untuk berbagai kasus penggunaan tanpa pekerjaan ekstrak, transformasi, dan pemuatan (ETL) padat karya. Atau, Anda dapat membawa platform analitik pilihan Anda ke danau data S3 Anda. Lihat blog ini untuk panduan menganalisis data Amazon Connect dengan Amazon Athena AWS Glue,, dan Amazon. QuickSight

Untuk solusi pergudangan data yang sangat skalabel, Anda dapat mengaktifkan streaming data di Amazon Connect untuk mengalirkan catatan kontak ke Amazon Redshift melalui Amazon Kinesis.

Machine learning

Membangun data lake membawa paradigma baru untuk arsitektur pusat kontak, memberdayakan bisnis Anda untuk memberikan layanan pelanggan yang ditingkatkan dan dipersonalisasi menggunakan kemampuan pembelajaran mesin (ML).

Pengembangan ML tradisional adalah proses yang kompleks dan mahal. AWS menyediakan kedalaman dan luasnya infrastruktur berkinerja tinggi, hemat biaya, terukur, dan layanan ML yang fleksibel untuk proyek atau beban kerja apa pun.

Amazon SageMaker AI adalah layanan terkelola penuh yang memungkinkan ilmuwan dan pengembang data Anda untuk membangun, melatih, dan menerapkan model ML untuk kasus penggunaan pusat kontak dalam skala besar. Persiapan data berkontribusi hingga 80% dari waktu ilmuwan data. Amazon SageMaker AI Data Wrangler menyederhanakan dan mempercepat persiapan data dan rekayasa fitur dari berbagai sumber data menggunakan lebih dari 300 transformasi data bawaan tanpa menulis kode apa pun. Anda dapat menyimpan fitur standar di Amazon SageMaker AI Feature Store untuk mengaktifkan penggunaan kembali dan berbagi dengan seluruh organisasi Anda.

Mengurangi gesekan dalam perjalanan pelanggan sangat penting untuk menghindari churn pelanggan. Untuk menambahkan kecerdasan ke pusat kontak Anda, Anda dapat membangun chatbot percakapan bertenaga AI menggunakan kemampuan Amazon Lex automatic speech recognition (ASR) dan natural language understanding (NLU). Pelanggan dapat melakukan tugas swalayan seperti pengaturan ulang kata sandi, pemeriksaan saldo akun, dan penjadwalan janji temu melalui chatbots tanpa berbicara dengan agen manusia. Untuk mengotomatiskan pertanyaan umum (FAQs) pusat kontak, Anda dapat membuat chatbot tanya jawab (Tanya Jawab) dengan Amazon Lex dan Amazon Kendra. Mengaktifkan pencatatan teks di Amazon CloudWatch Logs dan menyimpan input audio di S3 memungkinkan Anda menganalisis alur percakapan, meningkatkan desain percakapan, dan meningkatkan keterlibatan pengguna.

Memahami dinamika agen penelepon sangat penting untuk meningkatkan kualitas layanan secara keseluruhan. Lihat blog ini tentang cara mengalirkan rekaman suara ke Amazon Transcribe melalui Kinesis Video Stream untuk pengenalan suara, dan mengubah audio menjadi teks dan menjalankan analisis sentimen pada transkrip menggunakan Amazon Comprehend.

Untuk organisasi dengan kehadiran internasional, Anda dapat membangun pengalaman suara multibahasa di Amazon Connect menggunakan Amazon Polly atau Amazon Translate untuk terjemahan bahasa.

Perangkat lunak perencanaan keuangan tradisional membuat perkiraan berdasarkan data deret waktu historis tanpa menghubungkan tren yang tidak konsisten dan variabel yang relevan. Amazon Forecast memberikan akurasi hingga 50% lebih tinggi menggunakan pembelajaran mesin untuk menemukan hubungan mendasar antara data deret waktu dan variabel lain seperti fitur produk dan lokasi penyimpanan. Tanpa memerlukan pengalaman pembelajaran mesin, Anda dapat dengan mudah membuat perkiraan permintaan agen atau inventaris dengan menyediakan deret waktu dan data terkait di bucket S3 Anda ke Amazon Forecast. Anda dapat mengenkripsi konten rahasia menggunakan AWS KMS dan mengontrol akses ke Amazon Forecast menggunakan kebijakan IAM. Amazon Forecast melatih dan menyelenggarakan model pembelajaran mesin khusus di lingkungan yang sangat tersedia. Anda dapat menghasilkan prakiraan bisnis yang sangat akurat dengan cepat tanpa mengelola infrastruktur atau proses pembelajaran mesin yang kompleks.

Amazon Connect menyediakan atribut panggilan dari operator telepon, seperti lokasi geografis peralatan suara untuk menunjukkan asal panggilan, jenis perangkat telepon seperti telepon rumah atau seluler, jumlah segmen jaringan yang dilalui panggilan, dan informasi asal panggilan lainnya. Menggunakan Amazon Fraud Detector yang dikelola sepenuhnya, Anda dapat membuat model ML untuk mengidentifikasi aktivitas yang berpotensi penipuan dengan menggabungkan kumpulan data Anda dengan atribut panggilan Amazon Connect. Misalnya, Anda dapat menyesuaikan alur kontak untuk secara cerdas merutekan panggilan telepon dengan sinyal penipuan potensial ke agen khusus.