Analisis Komponen Utama (PCA) Algoritma - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Analisis Komponen Utama (PCA) Algoritma

PCAadalah algoritma pembelajaran mesin tanpa pengawasan yang mencoba mengurangi dimensi (jumlah fitur) dalam kumpulan data sambil tetap mempertahankan informasi sebanyak mungkin. Ini dilakukan dengan menemukan serangkaian fitur baru yang disebut komponen, yang merupakan komposit dari fitur asli yang tidak berkorelasi satu sama lain. Mereka juga dibatasi sehingga komponen pertama menyumbang variabilitas terbesar yang mungkin dalam data, komponen kedua adalah variabilitas terbanyak kedua, dan seterusnya.

Di Amazon SageMaker, PCA beroperasi dalam dua mode, tergantung pada skenario:

  • reguler: Untuk kumpulan data dengan data yang jarang dan jumlah pengamatan dan fitur yang moderat.

  • acak: Untuk kumpulan data dengan sejumlah besar pengamatan dan fitur. Mode ini menggunakan algoritma aproksimasi.

PCAmenggunakan data tabular.

Baris mewakili pengamatan yang ingin Anda tanamkan di ruang dimensi yang lebih rendah. Kolom mewakili fitur yang ingin Anda temukan perkiraan yang dikurangi. Algoritma menghitung matriks kovarians (atau perkiraannya secara terdistribusi), dan kemudian melakukan dekomposisi nilai tunggal pada ringkasan ini untuk menghasilkan komponen utama.

Antarmuka Input/Output untuk Algoritma PCA

Untuk pelatihan, PCA mengharapkan data yang disediakan di saluran kereta api, dan secara opsional mendukung kumpulan data yang diteruskan ke kumpulan data pengujian, yang dinilai oleh algoritme akhir. Keduanya recordIO-wrapped-protobuf dan CSV format didukung untuk pelatihan. Anda dapat menggunakan mode File atau mode Pipa untuk melatih model pada data yang diformat sebagai recordIO-wrapped-protobuf atau sebagaiCSV.

Untuk inferensi, PCA dukungantext/csv,application/json, danapplication/x-recordio-protobuf. Hasil dikembalikan dalam salah satu application/json atau application/x-recordio-protobuf format dengan vektor “proyeksi.”

Untuk informasi lebih lanjut tentang format file input dan output, lihat PCAFormat Respons untuk inferensi dan file. PCAContoh Notebook

EC2Rekomendasi Instance untuk PCA Algoritma

PCAdukungan CPU dan GPU contoh untuk pelatihan dan inferensi. Jenis instance mana yang paling berkinerja sangat bergantung pada spesifikasi data input. Untuk GPU contoh, PCA mendukung P2, P3, G4dn, dan G5.

PCAContoh Notebook

Untuk contoh buku catatan yang menunjukkan cara menggunakan algoritma Analisis Komponen SageMaker Utama untuk menganalisis gambar digit tulisan tangan dari nol hingga sembilan dalam MNIST kumpulan data, lihat Pengantar dengan. PCA MNIST Untuk petunjuk cara membuat dan mengakses instance notebook Jupyter yang dapat Anda gunakan untuk menjalankan contoh, lihat. SageMaker Instans SageMaker Notebook Amazon Setelah Anda membuat instance notebook dan membukanya, pilih tab SageMaker Contoh untuk melihat daftar semua SageMaker sampel. Contoh buku catatan pemodelan topik yang menggunakan NTM algoritme terletak di bagian Pengantar Algoritma Amazon. Untuk membuka buku catatan, klik tab Use dan pilih Create copy.