Persiapan data dalam skala besar menggunakan aplikasi Amazon EMR Tanpa Server atau kluster EMR Amazon di Studio

Amazon SageMaker Studio dan versi lawasannya, Studio Classic, memberi ilmuwan data, dan insinyur pembelajaran mesin (ML) alat untuk melakukan analisis data dan persiapan data dalam skala besar. Menganalisis, mengubah, dan menyiapkan data dalam jumlah besar adalah langkah dasar dari setiap ilmu data dan alur kerja ML. Baik Studio dan Studio Classic hadir dengan integrasi built-in dengan Amazon EMR, memungkinkan pengguna untuk mengelola persiapan data interaktif skala besar dan alur kerja pembelajaran mesin dalam notebook mereka. JupyterLab

Amazon EMR adalah platform data besar terkelola dengan sumber daya untuk membantu Anda menjalankan pekerjaan pemrosesan data terdistribusi berskala petabyte menggunakan kerangka kerja analitik sumber terbuka AWS seperti Apache Spark, Apache Hive, Presto, dan Flink. HBase Dengan integrasi Studio dan Studio Classic dengan Amazon EMR, Anda dapat membuat, menelusuri, menemukan, dan terhubung ke kluster EMR Amazon tanpa meninggalkan notebook atau Studio Classic Anda JupyterLab . Anda juga dapat memantau dan men-debug beban kerja Spark Anda dengan mengakses UI Spark langsung dari notebook Anda dengan sekali klik.

Anda harus mempertimbangkan klaster EMR Amazon untuk beban kerja persiapan data jika Anda memiliki persyaratan pemrosesan data berskala besar, jangka panjang, atau kompleks yang melibatkan sejumlah besar data, memerlukan penyesuaian dan integrasi ekstensif dengan layanan lain, perlu menjalankan aplikasi khusus, atau berencana untuk menjalankan beragam kerangka kerja pemrosesan data terdistribusi di luar Apache Spark.

Menggunakan gambar SageMaker distribusi 1.10 atau yang lebih tinggi, Anda dapat terhubung ke aplikasi EMR Serverless interaktif langsung dari JupyterLab notebook Anda di AI Studio. SageMaker Integrasi Studio dengan EMR Serverless memungkinkan Anda menjalankan kerangka kerja analisis data besar sumber terbuka seperti Apache Spark dan Apache Hive tanpa mengonfigurasi, mengelola, atau menskalakan cluster EMR Amazon. EMR Tanpa Server secara otomatis menyediakan dan mengelola sumber daya komputasi dan memori yang mendasarinya berdasarkan kebutuhan aplikasi EMR Tanpa Server Anda. Ini menskalakan sumber daya naik dan turun secara dinamis, mengisi daya Anda atau jumlah vCPU, memori, dan sumber daya penyimpanan yang dikonsumsi oleh aplikasi Anda. Pendekatan tanpa server ini memungkinkan Anda menjalankan beban kerja persiapan data interaktif dari JupyterLab notebook Anda tanpa mengkhawatirkan manajemen klaster, sekaligus mencapai pemanfaatan instans dan efisiensi biaya yang tinggi.

Anda harus mempertimbangkan EMR Tanpa Server untuk beban kerja persiapan data interaktif Anda jika beban kerja Anda berumur pendek atau terputus-putus dan tidak memerlukan cluster persisten; Anda lebih suka pengalaman tanpa server dengan penyediaan dan penghentian sumber daya otomatis, menghindari overhead pengelolaan infrastruktur; atau tugas persiapan data interaktif Anda terutama berkisar pada Apache Spark.

Daftar isi

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Parameter Koneksi

Mengkonfigurasi akses jaringan