Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Persiapan data dalam skala besar menggunakan aplikasi Amazon EMR Tanpa Server atau kluster EMR Amazon di Studio
Amazon SageMaker Studio dan versi lawasannya, Studio Classic, memberi ilmuwan data, dan insinyur pembelajaran mesin (ML) alat untuk melakukan analisis data dan persiapan data dalam skala besar. Menganalisis, mengubah, dan menyiapkan data dalam jumlah besar adalah langkah dasar dari setiap ilmu data dan alur kerja ML. Baik Studio dan Studio Classic hadir dengan integrasi built-in dengan Amazon EMR, memungkinkan pengguna untuk mengelola persiapan data interaktif skala besar dan alur kerja pembelajaran mesin dalam notebook mereka. JupyterLab
Amazon EMR adalah platform data besar terkelola dengan sumber daya untuk membantu Anda menjalankan pekerjaan pemrosesan data terdistribusi berskala petabyte menggunakan kerangka kerja analitik sumber terbuka AWS seperti Apache Spark, Apache
Anda harus mempertimbangkan klaster EMR Amazon untuk beban kerja persiapan data jika Anda memiliki persyaratan pemrosesan data berskala besar, jangka panjang, atau kompleks yang melibatkan sejumlah besar data, memerlukan penyesuaian dan integrasi ekstensif dengan layanan lain, perlu menjalankan aplikasi khusus, atau berencana untuk menjalankan beragam kerangka kerja pemrosesan data terdistribusi di luar Apache Spark.
Menggunakan gambar SageMaker distribusi 1.10
atau yang lebih tinggi, Anda dapat terhubung ke aplikasi EMR Serverless interaktif langsung dari JupyterLab notebook Anda di AI Studio. SageMaker Integrasi Studio dengan EMR Serverless memungkinkan Anda menjalankan kerangka kerja analisis data besar sumber terbuka seperti Apache Spark dan Apache
Anda harus mempertimbangkan EMR Tanpa Server untuk beban kerja persiapan data interaktif Anda jika beban kerja Anda berumur pendek atau terputus-putus dan tidak memerlukan cluster persisten; Anda lebih suka pengalaman tanpa server dengan penyediaan dan penghentian sumber daya otomatis, menghindari overhead pengelolaan infrastruktur; atau tugas persiapan data interaktif Anda terutama berkisar pada Apache Spark.