Ikhtisar pembelajaran mesin - Amazon Redshift

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ikhtisar pembelajaran mesin

Dengan menggunakan Amazon Redshift ML, Anda dapat melatih model pembelajaran mesin menggunakan pernyataan SQL dan memanggilnya dalam kueri SQL untuk prediksi.

Untuk membantu Anda mempelajari cara menggunakan Amazon Redshift ML, Anda dapat menonton video berikut.

Untuk informasi tentang prasyarat untuk menyiapkan klaster Redshift, izin, dan kepemilikan Anda untuk menggunakan Amazon Redshift ML, baca bagian berikut. Bagian-bagian ini juga menjelaskan cara kerja pelatihan dan prediksi sederhana di Amazon Redshift Ml.

Bagaimana pembelajaran mesin dapat memecahkan masalah

Model pembelajaran mesin menghasilkan prediksi dengan menemukan pola dalam data pelatihan Anda dan kemudian menerapkan pola ini ke data baru. Dalam pembelajaran mesin, Anda melatih model-model ini dengan mempelajari pola yang paling menjelaskan data Anda. Kemudian Anda menggunakan model untuk membuat prediksi (juga disebut inferensi) pada data baru. Pembelajaran mesin biasanya merupakan proses berulang di mana Anda dapat terus meningkatkan akurasi prediksi dengan mengubah parameter dan meningkatkan data pelatihan Anda. Jika data berubah, pelatihan ulang model baru dengan dataset baru terjadi.

Untuk mengatasi berbagai tujuan bisnis, ada pendekatan pembelajaran mesin dasar yang berbeda.

Pembelajaran yang diawasi di Amazon Redshift ML

Amazon Redshift mendukung pembelajaran yang diawasi, yang merupakan pendekatan paling umum untuk analisis perusahaan tingkat lanjut. Pembelajaran yang diawasi adalah pendekatan pembelajaran mesin yang disukai ketika Anda memiliki kumpulan data yang mapan dan pemahaman tentang bagaimana data input spesifik memprediksi berbagai hasil bisnis. Hasil ini kadang-kadang disebut label. Secara khusus, dataset Anda adalah tabel dengan atribut yang terdiri dari fitur (input) dan target (output). Misalnya, Anda memiliki tabel yang memberikan usia dan kode pos untuk pelanggan masa lalu dan sekarang. Misalkan Anda juga memiliki bidang “aktif” yang berlaku untuk pelanggan saat ini dan palsu untuk pelanggan yang telah menangguhkan keanggotaan mereka. Tujuan dari pembelajaran mesin yang diawasi adalah untuk menemukan pola usia dan kode pos yang mengarah ke churn pelanggan, seperti yang diwakili oleh pelanggan yang targetnya “Salah.” Anda dapat menggunakan model ini untuk memprediksi pelanggan yang cenderung melakukan churn, seperti menangguhkan keanggotaan mereka, dan berpotensi menawarkan insentif retensi.

Amazon Redshift mendukung pembelajaran terawasi yang mencakup regresi, klasifikasi biner, dan klasifikasi multikelas. Regresi mengacu pada masalah memprediksi nilai kontinu, seperti total pengeluaran pelanggan. Klasifikasi biner mengacu pada masalah memprediksi salah satu dari dua hasil, seperti memprediksi apakah pelanggan melakukan churns atau tidak. Klasifikasi multiclass mengacu pada masalah memprediksi salah satu dari banyak hasil, seperti memprediksi item yang mungkin diminati pelanggan. Analis data dan ilmuwan data dapat menggunakannya untuk melakukan pembelajaran yang diawasi untuk mengatasi masalah mulai dari peramalan, personalisasi, atau prediksi churn pelanggan. Anda juga dapat menggunakan pembelajaran yang diawasi dalam masalah seperti prediksi penjualan mana yang akan ditutup, prediksi pendapatan, deteksi penipuan, dan prediksi nilai seumur hidup pelanggan.

Pembelajaran tanpa pengawasan di Amazon Redshift ML

Pembelajaran tanpa pengawasan menggunakan algoritma pembelajaran mesin untuk menganalisis dan mengelompokkan data pelatihan yang tidak berlabel. Algoritma menemukan pola atau pengelompokan tersembunyi. Tujuannya adalah untuk memodelkan struktur atau distribusi yang mendasari dalam data untuk mempelajari lebih lanjut tentang data.

Amazon Redshift mendukung algoritma pengelompokan K-Means untuk memecahkan masalah pembelajaran tanpa pengawasan. Algoritma ini memecahkan masalah pengelompokan di mana Anda ingin menemukan pengelompokan dalam data. Algoritma K-Means mencoba menemukan pengelompokan diskrit dalam data. Data yang tidak diklasifikasikan dikelompokkan dan dipartisi berdasarkan persamaan dan perbedaannya. Dengan pengelompokan, algoritma K-Means secara iteratif menentukan centroid terbaik dan menetapkan setiap anggota ke centroid terdekat. Anggota yang terdekat dengan centroid yang sama termasuk dalam kelompok yang sama. Anggota kelompok semirip mungkin dengan anggota lain dalam kelompok yang sama, dan berbeda mungkin dari anggota kelompok lain. Misalnya, algoritma pengelompokan K-Means dapat digunakan untuk mengklasifikasikan kota yang terkena dampak pandemi atau mengklasifikasikan kota berdasarkan popularitas produk konsumen.

Saat menggunakan algoritma K-Means, Anda menentukan input k yang menentukan jumlah cluster yang akan ditemukan dalam data. Output dari algoritma ini adalah satu set k centroid. Setiap titik data milik salah satu kluster k yang paling dekat dengannya. Setiap cluster dijelaskan oleh centroid-nya. Centroid dapat dianggap sebagai rata-rata multi-dimensi cluster. Algoritma K-Means membandingkan jarak untuk melihat betapa berbedanya cluster satu sama lain. Jarak yang lebih besar umumnya menunjukkan perbedaan yang lebih besar antara cluster.

Preprocessing data penting untuk K-Means, karena memastikan bahwa fitur model tetap pada skala yang sama dan menghasilkan hasil yang andal. Amazon Redshift mendukung beberapa preprosesor K-Means untuk pernyataan CREATE MODEL, seperti StandardScaler,, dan. MinMax NumericPassthrough Jika Anda tidak ingin menerapkan pra-pemrosesan apa pun untuk K-mean, pilih NumericPassthrough secara eksplisit sebagai transformator. Untuk informasi selengkapnya tentang parameter K-Means, lihatBUAT MODEL dengan parameter K-MEANS.

Untuk membantu Anda mempelajari cara melakukan pelatihan tanpa pengawasan dengan pengelompokan K-Means, Anda dapat menonton video berikut.

Syarat dan konsep untuk Amazon Redshift ML

Istilah-istilah berikut digunakan untuk menggambarkan beberapa konsep Amazon Redshift MS:

  • Pembelajaran mesin di Amazon Redshift melatih model dengan satu perintah SQL. Amazon Redshift ML dan Amazon SageMaker mengelola semua konversi data, izin, penggunaan sumber daya, dan penemuan model yang tepat.

  • Pelatihan adalah fase ketika Amazon Redshift membuat model pembelajaran mesin dengan menjalankan subset data tertentu ke dalam model. Amazon Redshift secara otomatis meluncurkan pekerjaan pelatihan di Amazon SageMaker dan menghasilkan model.

  • Prediksi (juga disebut inferensi) adalah penggunaan model dalam kueri Amazon Redshift SQL untuk memprediksi hasil. Pada waktu inferensi, Amazon Redshift menggunakan fungsi prediksi berbasis model sebagai bagian dari kueri yang lebih besar untuk menghasilkan prediksi. Prediksi dihitung secara lokal, di cluster Redshift, sehingga memberikan throughput tinggi, latensi rendah, dan biaya tambahan nol.

  • Dengan bring your own model (BYOM), Anda dapat menggunakan model yang dilatih di luar Amazon Redshift dengan Amazon untuk inferensi dalam database secara lokal di SageMaker Amazon Redshift. Amazon Redshift MLmendukung penggunaan BYOM dalam inferensi lokal.

  • Inferensi lokal digunakan saat model dilatih sebelumnya di Amazon SageMaker, dikompilasi oleh Amazon SageMaker Neo, dan dilokalkan di Amazon Redshift ML. Untuk mengimpor model yang didukung untuk inferensi lokal ke Amazon Redshift, gunakan perintah CREATE MODEL. Amazon Redshift mengimpor model yang telah dilatih sebelumnya SageMaker dengan memanggil Amazon Neo. SageMaker Anda mengkompilasi model di sana dan mengimpor model yang dikompilasi ke Amazon Redshift. Gunakan inferensi lokal untuk kecepatan yang lebih cepat dan biaya yang lebih rendah.

  • Inferensi jarak jauh digunakan saat Amazon Redshift memanggil titik akhir model yang diterapkan. SageMaker Inferensi jarak jauh memberikan fleksibilitas untuk memanggil semua jenis model kustom dan model pembelajaran mendalam, seperti TensorFlow model yang Anda buat dan terapkan di Amazon. SageMaker

Yang juga penting adalah sebagai berikut:

  • Amazon SageMaker adalah layanan pembelajaran mesin yang dikelola sepenuhnya. Dengan Amazon SageMaker, ilmuwan dan pengembang data dapat dengan mudah membangun, melatih, dan langsung menerapkan model ke dalam lingkungan host yang siap produksi. Untuk informasi tentang Amazon SageMaker, lihat Apa itu Amazon SageMaker di Panduan SageMaker Pengembang Amazon.

  • Amazon SageMaker Autopilot adalah rangkaian fitur yang secara otomatis melatih dan menyetel model pembelajaran mesin terbaik untuk klasifikasi atau regresi, berdasarkan data Anda. Anda mempertahankan kontrol dan visibilitas penuh. Amazon SageMaker Autopilot mendukung data input dalam format tabel. Amazon SageMaker Autopilot menyediakan pembersihan dan pra-pemrosesan data otomatis, pemilihan algoritme otomatis untuk regresi linier, klasifikasi biner, dan klasifikasi multiclass. Ini juga mendukung optimasi hyperparameter otomatis (HPO), pelatihan terdistribusi, instance otomatis, dan pemilihan ukuran cluster. Untuk informasi tentang Amazon SageMaker Autopilot, lihat Mengotomatiskan pengembangan model dengan Amazon SageMaker Autopilot di Panduan Pengembang Amazon. SageMaker