Bagaimana pembelajaran mesin dapat memecahkan masalah Syarat dan konsep untuk Amazon Redshift ML

Ikhtisar pembelajaran mesin

Dengan Amazon Redshift, Anda dapat memanfaatkan kemampuan pembelajaran mesin untuk mendapatkan wawasan berharga dari data Anda. Ikhtisar Machine Learning (ML) ini menunjukkan kepada Anda cara menjelajahi, memvisualisasikan, dan menyiapkan data Anda untuk pelatihan dan penerapan model ML. Bagian berikut akan memandu Anda melalui proses memanfaatkan Amazon Redshift MLuntuk membuka potensi data Anda melalui pembelajaran mesin.

Dengan menggunakan Amazon Redshift ML, Anda dapat melatih model pembelajaran mesin menggunakan pernyataan SQL dan memanggilnya dalam kueri SQL untuk prediksi.

Untuk membantu Anda mempelajari cara menggunakan Amazon Redshift ML, Anda dapat menonton video berikut.

Untuk informasi tentang prasyarat untuk menyiapkan klaster Redshift atau grup kerja Tanpa Server, izin, dan kepemilikan untuk menggunakan Amazon Redshift MS, baca bagian berikut. Bagian-bagian ini juga menjelaskan cara kerja pelatihan dan prediksi sederhana di Amazon Redshift Ml.

Bagaimana pembelajaran mesin dapat memecahkan masalah

Model pembelajaran mesin menghasilkan prediksi dengan menemukan pola dalam data pelatihan Anda dan kemudian menerapkan pola ini ke data baru. Dalam pembelajaran mesin, Anda melatih model-model ini dengan mempelajari pola yang paling menjelaskan data Anda. Kemudian Anda menggunakan model untuk membuat prediksi (juga disebut inferensi) pada data baru. Pembelajaran mesin biasanya merupakan proses berulang di mana Anda dapat terus meningkatkan akurasi prediksi dengan mengubah parameter dan meningkatkan data pelatihan Anda. Jika data berubah, pelatihan ulang model baru dengan dataset baru terjadi.

Untuk mengatasi berbagai tujuan bisnis, ada pendekatan pembelajaran mesin dasar yang berbeda.

Pembelajaran yang diawasi di Amazon Redshift ML

Amazon Redshift mendukung pembelajaran yang diawasi, yang merupakan pendekatan paling umum untuk analisis perusahaan tingkat lanjut. Pembelajaran yang diawasi adalah pendekatan pembelajaran mesin yang disukai ketika Anda memiliki kumpulan data yang mapan dan pemahaman tentang bagaimana data input spesifik memprediksi berbagai hasil bisnis. Hasil ini kadang-kadang disebut label. Secara khusus, dataset Anda adalah tabel dengan atribut yang terdiri dari fitur (input) dan target (output). Misalnya, Anda memiliki tabel yang memberikan usia dan kode pos untuk pelanggan masa lalu dan sekarang. Misalkan Anda juga memiliki bidang “aktif” yang berlaku untuk pelanggan saat ini dan palsu untuk pelanggan yang telah menangguhkan keanggotaan mereka. Tujuan dari pembelajaran mesin yang diawasi adalah untuk menemukan pola usia dan kode pos yang mengarah ke churn pelanggan, sebagaimana diwakili oleh pelanggan yang targetnya “Salah.” Anda dapat menggunakan model ini untuk memprediksi pelanggan yang cenderung melakukan churn, seperti menangguhkan keanggotaan mereka, dan berpotensi menawarkan insentif retensi.

Amazon Redshift mendukung pembelajaran terawasi yang mencakup regresi, klasifikasi biner, dan klasifikasi multikelas. Regresi mengacu pada masalah memprediksi nilai kontinu, seperti total pengeluaran pelanggan. Klasifikasi biner mengacu pada masalah memprediksi salah satu dari dua hasil, seperti memprediksi apakah pelanggan melakukan churns atau tidak. Klasifikasi multiclass mengacu pada masalah memprediksi salah satu dari banyak hasil, seperti memprediksi item yang mungkin diminati pelanggan. Analis data dan ilmuwan data dapat menggunakannya untuk melakukan pembelajaran yang diawasi untuk mengatasi masalah mulai dari peramalan, personalisasi, atau prediksi churn pelanggan. Anda juga dapat menggunakan pembelajaran yang diawasi dalam masalah seperti prediksi penjualan mana yang akan ditutup, prediksi pendapatan, deteksi penipuan, dan prediksi nilai seumur hidup pelanggan.

Pembelajaran tanpa pengawasan di Amazon Redshift ML

Pembelajaran tanpa pengawasan menggunakan algoritma pembelajaran mesin untuk menganalisis dan mengelompokkan data pelatihan yang tidak berlabel. Algoritma menemukan pola atau pengelompokan tersembunyi. Tujuannya adalah untuk memodelkan struktur atau distribusi yang mendasari dalam data untuk mempelajari lebih lanjut tentang data.

Amazon Redshift mendukung algoritma pengelompokan K-Means untuk memecahkan masalah pembelajaran tanpa pengawasan. Algoritma ini memecahkan masalah pengelompokan di mana Anda ingin menemukan pengelompokan dalam data. Algoritma K-Means mencoba menemukan pengelompokan diskrit dalam data. Data yang tidak diklasifikasikan dikelompokkan dan dipartisi berdasarkan persamaan dan perbedaannya. Dengan pengelompokan, algoritma K-Means secara iteratif menentukan centroid terbaik dan menetapkan setiap anggota ke centroid terdekat. Anggota yang terdekat dengan centroid yang sama termasuk dalam kelompok yang sama. Anggota kelompok semirip mungkin dengan anggota lain dalam kelompok yang sama, dan berbeda mungkin dari anggota kelompok lain. Misalnya, algoritma pengelompokan K-Means dapat digunakan untuk mengklasifikasikan kota yang terkena dampak pandemi atau mengklasifikasikan kota berdasarkan popularitas produk konsumen.

Saat menggunakan algoritma K-Means, Anda menentukan input k yang menentukan jumlah cluster yang akan ditemukan dalam data. Output dari algoritma ini adalah satu set k centroid. Setiap titik data milik salah satu kluster k yang paling dekat dengannya. Setiap cluster dijelaskan oleh centroidnya. Centroid dapat dianggap sebagai rata-rata multi-dimensi cluster. Algoritma K-Means membandingkan jarak untuk melihat betapa berbedanya cluster satu sama lain. Jarak yang lebih besar umumnya menunjukkan perbedaan yang lebih besar antara cluster.

Preprocessing data penting untuk K-Means, karena memastikan bahwa fitur model tetap pada skala yang sama dan menghasilkan hasil yang andal. Amazon Redshift mendukung beberapa preprosesor K-Means untuk pernyataan CREATE MODEL, seperti StandardScaler,, dan. MinMax NumericPassthrough Jika Anda tidak ingin menerapkan pra-pemrosesan apa pun untuk K-mean, pilih NumericPassthrough secara eksplisit sebagai transformator. Untuk informasi selengkapnya tentang parameter K-Means, lihatBUAT MODEL dengan parameter K-MEANS.

Untuk membantu Anda mempelajari cara melakukan pelatihan tanpa pengawasan dengan pengelompokan K-Means, Anda dapat menonton video berikut.

Syarat dan konsep untuk Amazon Redshift ML

Istilah-istilah berikut digunakan untuk menggambarkan beberapa konsep Amazon Redshift MS:

Pembelajaran mesin di Amazon Redshift melatih model dengan satu perintah SQL. Amazon Redshift ML dan Amazon SageMaker AI mengelola semua konversi data, izin, penggunaan sumber daya, dan penemuan model yang tepat.
Pelatihan adalah fase ketika Amazon Redshift membuat model pembelajaran mesin dengan menjalankan subset data tertentu ke dalam model. Amazon Redshift secara otomatis meluncurkan pekerjaan pelatihan di Amazon SageMaker AI dan menghasilkan model.
Prediksi (juga disebut inferensi) adalah penggunaan model dalam kueri Amazon Redshift SQL untuk memprediksi hasil. Pada waktu inferensi, Amazon Redshift menggunakan fungsi prediksi berbasis model sebagai bagian dari kueri yang lebih besar untuk menghasilkan prediksi. Prediksi dihitung secara lokal, di cluster Redshift, sehingga memberikan throughput tinggi, latensi rendah, dan biaya tambahan nol.
Dengan bring your own model (BYOM), Anda dapat menggunakan model yang dilatih di luar Amazon Redshift dengan Amazon AI untuk inferensi dalam database secara lokal di SageMaker Amazon Redshift. Amazon Redshift MLmendukung penggunaan BYOM dalam inferensi lokal.
Inferensi lokal digunakan saat model dilatih sebelumnya di Amazon SageMaker AI, dikompilasi oleh Amazon SageMaker AI Neo, dan dilokalkan di Amazon Redshift Ml. Untuk mengimpor model yang didukung untuk inferensi lokal ke Amazon Redshift, gunakan perintah CREATE MODEL. Amazon Redshift mengimpor model AI yang telah dilatih sebelumnya dengan memanggil Amazon SageMaker AI Neo. SageMaker Anda mengkompilasi model di sana dan mengimpor model yang dikompilasi ke Amazon Redshift. Gunakan inferensi lokal untuk kecepatan yang lebih cepat dan biaya yang lebih rendah.
Inferensi jarak jauh digunakan saat Amazon Redshift memanggil titik akhir model yang digunakan di AI. SageMaker Inferensi jarak jauh memberikan fleksibilitas untuk menggunakan semua jenis model khusus dan model pembelajaran mendalam, seperti TensorFlow model yang Anda buat dan gunakan di Amazon AI. SageMaker

Juga penting adalah sebagai berikut:

Amazon SageMaker AI adalah layanan pembelajaran mesin yang dikelola sepenuhnya. Dengan Amazon SageMaker AI, ilmuwan dan pengembang data dapat dengan mudah membangun, melatih, dan langsung menerapkan model ke dalam lingkungan host yang siap produksi. Untuk informasi tentang Amazon SageMaker AI, lihat Apa itu Amazon SageMaker AI di Panduan Pengembang Amazon SageMaker AI.
Amazon SageMaker AI Autopilot adalah rangkaian fitur yang secara otomatis melatih dan menyetel model pembelajaran mesin terbaik untuk klasifikasi atau regresi, berdasarkan data Anda. Anda mempertahankan kontrol dan visibilitas penuh. Amazon SageMaker AI Autopilot mendukung data input dalam format tabel. Amazon SageMaker AI Autopilot menyediakan pembersihan dan pra-pemrosesan data otomatis, pemilihan algoritme otomatis untuk regresi linier, klasifikasi biner, dan klasifikasi multiclass. Ini juga mendukung optimasi hyperparameter otomatis (HPO), pelatihan terdistribusi, instance otomatis, dan pemilihan ukuran cluster. Untuk informasi tentang Amazon SageMaker AI Autopilot, lihat Mengotomatiskan pengembangan model dengan Amazon SageMaker AI Autopilot di Panduan Pengembang Amazon AI. SageMaker
Amazon Bedrock adalah layanan yang dikelola sepenuhnya yang menawarkan pilihan model fondasi berkinerja tinggi (FMs) dari perusahaan AI terkemuka seperti AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI, dan Amazon melalui satu API, bersama dengan serangkaian luas kemampuan yang diperlukan untuk membangun aplikasi AI generatif.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Machine learning

Pembelajaran mesin untuk pemula dan ahli