Menggunakan Data dari Database Amazon RDS untuk Membuat Amazon MI Datasource - Amazon Machine Learning

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihatApa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Data dari Database Amazon RDS untuk Membuat Amazon MI Datasource

Amazon IL memungkinkan Anda membuat objek datasource dari data yang disimpan dalam basis data MySQL di Amazon Relational Database Service (Amazon RDS). Saat Anda melakukan tindakan ini, Amazon IL membuat objek AWS Data Pipeline yang mengeksekusi kueri SQL yang Anda tetapkan, dan menempatkan output ke bucket S3 pilihan Anda. Amazon IL menggunakan data tersebut untuk membuat sumber data.

catatan

Amazon ML-hanya mendukung database MySQL di VPC.

Sebelum Amazon IL dapat membaca data masukan Anda, Anda harus mengekspor data tersebut ke Amazon Simple Storage Service (Amazon S3). Anda dapat mengatur Amazon IL untuk melakukan ekspor untuk Anda dengan menggunakan API. (RDS terbatas pada API, dan tidak tersedia dari konsol.)

Agar Amazon IL dapat terhubung ke database MySQL Anda di Amazon RDS dan membaca data atas nama Anda, Anda harus memberikan yang berikut:

  • Pengidentifikasi instans DB RDS

  • Nama basis data MySQL

  • ParameterAWS Identity and Access Management(IAM) peran yang digunakan untuk membuat, mengaktifkan, dan menjalankan pipa data

  • Kredenal pengguna basis data:

    • Nama pengguna

    • Kata sandi

  • Informasi keamanan AWS Data Pipeline:

    • Peran sumber daya IAM

    • Peran layanan IAM

  • Informasi keamanan Amazon RDS:

    • ID subnet

    • ID grup keamanan

  • Query SQL yang menentukan data yang ingin Anda gunakan untuk membuat sumber data

  • S3 lokasi output (bucket) yang digunakan untuk menyimpan hasil query

  • (Opsional) Lokasi file skema data

Selain itu, Anda perlu memastikan bahwa pengguna IAM atau peran yang membuat sumber data Amazon RDS dengan menggunakanCreateDataSourceFromRDSoperasi memilikiiam:PassRoleizin. Untuk informasi selengkapnya, lihat Mengontrol Akses ke Sumber Daya Amazon ML-dengan IAM.

Pengidentifikasi instans Basis Data RDS

Pengenal instans DB RDS adalah nama unik yang Anda suplai yang mengidentifikasi instans database yang harus digunakan Amazon ML-nya saat berinteraksi dengan Amazon RDS. Anda dapat menemukan pengidentifikasi instans DB RDS di konsol Amazon RDS.

Nama Basis Data MySQL

Nama Database MySQL menentukan nama database MySQL di instans DB RDS.

Kredenal Pengguna Basis Data

Untuk menyambung ke instans DB RDS, Anda harus menyediakan nama pengguna dan kata sandi pengguna database yang memiliki izin yang cukup untuk mengeksekusi query SQL yang Anda berikan.

Informasi Keamanan AWS Data Pipeline

Untuk mengaktifkan akses AWS Data Pipeline yang aman, Anda harus memberikan nama peran sumber daya IAM dan peran layanan IAM.

Instans EC2 mengasumsikan peran sumber daya untuk menyalin data dari Amazon RDS ke Amazon S3. Cara termudah untuk membuat peran sumber daya ini adalah dengan menggunakanDataPipelineDefaultResourceRoleTemplate, dan daftarmachinelearning.aws.comsebagai layanan terpercaya. Untuk informasi lebih lanjut tentang templat, lihatMenyiapkan Peran IAMdiPanduan Pengembang AWS Data Pipeline.

Jika Anda membuat peran Anda sendiri, itu harus memiliki konten berikut:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "machinelearning.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "123456789012" }, "ArnLike": { "aws:SourceArn": "arn:aws:machinelearning:us-east-1:123456789012:datasource/*" } } }] }

AWS Data Pipeline mengasumsikan peran layanan untuk memantau kemajuan menyalin data dari Amazon RDS ke Amazon S3. Cara termudah untuk membuat peran sumber daya ini adalah dengan menggunakanDataPipelineDefaultRoleTemplate, dan daftarmachinelearning.aws.comsebagai layanan terpercaya. Untuk informasi lebih lanjut tentang templat, lihatMenyiapkan Peran IAMdiPanduan Pengembang AWS Data Pipeline.

Informasi Keamanan Amazon

Untuk mengaktifkan akses Amazon RDS yang aman, Anda harus menyediakanVPC Subnet IDdanRDS Security Group IDs. Anda juga perlu mengatur aturan masuknya yang sesuai untuk subnet VPC yang ditunjukkan olehSubnet IDparameter, dan memberikan ID dari grup keamanan yang memiliki izin ini.

Kueri MySQL

ParameterMySQL SQL Queryparameter menentukan query SQL SELECT yang ingin Anda jalankan pada database MySQL Anda. Hasil kueri disalin ke lokasi keluaran S3 (bucket) yang Anda tentukan.

catatan

Teknologi pembelajaran mesin bekerja paling baik ketika catatan masukan disajikan dalam urutan acak (dikoyak). Anda dapat dengan mudah mengocokkan hasil kueri MySQL SQL Anda dengan menggunakanrand()fungsi. Sebagai contoh, katakanlah bahwa ini adalah kueri asli:

“SELECT col1, col2,... DARI training_table”

Anda dapat menambahkan menyeret acak dengan memperbarui kueri seperti ini:

“SELECT col1, col2,... DARI training_table ORDER OLEH rand ()”

Lokasi Output S3

ParameterS3 Output Locationparameter menentukan nama lokasi “pementasan” Amazon S3 di mana hasil kueri MySQL SQL adalah output.

catatan

Anda perlu memastikan bahwa Amazon IL memiliki izin untuk membaca data dari lokasi ini setelah data diekspor dari Amazon RDS. Untuk informasi tentang menyetel izin ini, lihat Memberikan Izin Amazon ML-Membaca Data Anda dari Amazon S3.