Membuat dataset dan skema - Amazon Personalize

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat dataset dan skema

Setelah selesaiLangkah 1: Membuat grup dataset, Anda siap membuat kumpulan data. Dataset adalah Amazon Personalize container untuk data. Saat membuat kumpulan data, Anda juga membuat skema untuk kumpulan data. Skema memberi tahu Amazon Personalize tentang struktur data Anda dan memungkinkan Amazon Personalize untuk mengurai data.

Anda membuat kumpulan data dengan konsol Amazon Personalize AWS Command Line Interface ,AWS CLI(), atau SDK. AWS Anda tidak dapat membuat sumber daya tindakan terbaik berikutnya, termasuk kumpulan data Tindakan dan Interaksi Tindakan, dalam grup kumpulan data domain. Untuk informasi tentang berbagai jenis kumpulan data, serta set data dan persyaratan skema, lihat. Dataset dan skema

Membuat kumpulan data dan skema (konsol)

Jika ini adalah kumpulan data pertama Anda di grup kumpulan data Anda, jenis kumpulan data pertama Anda akan menjadi kumpulan data interaksi Item. Untuk membuat kumpulan data interaksi Item di konsol, tentukan nama kumpulan data lalu tentukan skema JSON dalam format Avro. Jika ini bukan kumpulan data pertama Anda dalam grup kumpulan data ini, pilih jenis kumpulan data lalu tentukan nama dan skema.

Untuk informasi tentang Amazon Personalisasi kumpulan data dan persyaratan skema, lihat. Dataset dan skema

catatan

Jika Anda baru saja selesai Langkah 1: Membuat grup dataset dan Anda sudah membuat dataset Anda, lewati ke langkah 4 dalam prosedur ini.

Untuk membuat dataset dan skema
  1. Buka konsol Amazon Personalize di https://console.aws.amazon.com/personalize/home dan masuk ke akun Anda.

  2. Pada halaman grup Dataset, pilih grup kumpulan data yang Anda buat. Langkah 1: Membuat grup dataset

  3. Di Siapkan kumpulan data pilih Buat kumpulan data dan pilih jenis kumpulan data yang akan dibuat.

  4. Pilih Impor data langsung ke Amazon Personalize dataset dan pilih Berikutnya.

  5. Di detail Dataset, untuk nama Dataset, tentukan nama untuk kumpulan data Anda.

  6. Dalam detail Skema, untuk pemilihan Skema, pilih skema yang ada atau pilih Buat skema baru.

  7. Jika Anda membuat skema baru, untuk definisi Skema, tempelkan skema JSON yang cocok dengan data Anda. Gunakan contoh yang ditemukan Skema sebagai panduan. Setelah Anda membuat skema, Anda tidak dapat membuat perubahan pada skema.

  8. Untuk nama skema baru, tentukan nama untuk skema baru.

  9. Untuk Tag, secara opsional tambahkan tag apa pun. Untuk informasi selengkapnya tentang menandai sumber daya Amazon Personalize, lihat. Menandai Amazon Personalisasi sumber daya

  10. Pilih Berikutnya dan ikuti petunjuk Mempersiapkan dan mengimpor data massal untuk mengimpor data Anda.

Membuat dataset dan skema ()AWS CLI

Untuk membuat kumpulan data dan skema menggunakan skema AWS CLI, pertama-tama Anda menentukan skema dalam format Avro dan menambahkannya ke Amazon Personalize menggunakan operasi. CreateSchema Kemudian buat dataset menggunakan CreateDataset operasi. Untuk informasi tentang Amazon Personalisasi kumpulan data dan persyaratan skema, lihat. Dataset dan skema

Untuk membuat skema dan dataset
  1. Buat file skema dalam format Avro dan simpan sebagai file JSON. File ini harus didasarkan pada jenis kumpulan data, seperti Interaksi, yang Anda buat.

    Skema harus cocok dengan kolom dalam data Anda dan skema name harus cocok dengan salah satu jenis kumpulan data yang dikenali oleh Amazon Personalize. Berikut ini adalah contoh skema kumpulan data interaksi Item minimal. Untuk contoh lainnya, lihat Skema.

    { "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }
  2. Buat skema di Amazon Personalize dengan menjalankan perintah berikut. Setelah Anda membuat skema, Anda tidak dapat membuat perubahan pada skema. Ganti schemaName dengan nama skema, dan ganti file://SchemaName.json dengan lokasi file JSON yang Anda buat pada langkah sebelumnya. Contoh menunjukkan file sebagai milik folder saat ini.

    Jika Anda membuat skema untuk kumpulan data dalam grup dataset Domain, tambahkan domain parameter dan atur ke atau. ECOMMERCE VIDEO_ON_DEMAND Untuk informasi selengkapnya tentang API, lihat CreateSchema.

    aws personalize create-schema \ --name SchemaName \ --schema file://SchemaName.json

    Skema Amazon Resource Name (ARN) ditampilkan, seperti yang ditunjukkan pada contoh berikut:

    { "schemaArn": "arn:aws:personalize:us-west-2:acct-id:schema/SchemaName" }
  3. Buat dataset kosong dengan menjalankan perintah berikut. Berikan grup kumpulan data Amazon Resource Name (ARN) Membuat grup dataset ()AWS CLI dari dan skema ARN dari langkah sebelumnya. Nilai tipe dataset dapat berupaInteractions,,Users, ItemsActions, atauAction_Interactions. Untuk informasi selengkapnya tentang API, lihat CreateDataset.

    aws personalize create-dataset \ --name Dataset Name \ --dataset-group-arn Dataset Group ARN \ --dataset-type Dataset Type \ --schema-arn Schema Arn

    Dataset ARN ditampilkan, seperti yang ditunjukkan pada contoh berikut.

    { "datasetArn": "arn:aws:personalize:us-west-2:acct-id:dataset/DatasetName/INTERACTIONS" }
  4. Rekam kumpulan data ARN untuk digunakan nanti. Setelah membuat kumpulan data, Anda siap untuk mengimpor data pelatihan Anda. Lihat Mempersiapkan dan mengimpor data massal.

Membuat kumpulan data dan skema (SDK)AWS

Untuk membuat kumpulan data dan skema menggunakan AWS SDK, pertama-tama Anda menentukan skema dalam format Avro dan menambahkannya ke Amazon Personalize menggunakan operasi. CreateSchema Setelah Anda membuat skema, Anda tidak dapat membuat perubahan pada skema. Kemudian buat dataset menggunakan CreateDataset operasi. Untuk informasi tentang Amazon Personalisasi kumpulan data dan persyaratan skema, lihat. Dataset dan skema

Untuk membuat skema dan dataset
  1. Buat file skema dalam format Avro dan simpan sebagai file JSON di direktori kerja Anda.

    Skema harus cocok dengan kolom dalam data Anda dan skema name harus cocok dengan satu jenis kumpulan data yang dikenali oleh Amazon Personalize. Berikut ini adalah contoh skema kumpulan data interaksi Item minimal. Untuk contoh lainnya, lihat Skema.

    { "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }
  2. Buat skema dengan kode berikut. Tentukan nama untuk skema Anda dan jalur file untuk file JSON skema Anda.

    Jika Anda membuat skema untuk kumpulan data dalam grup dataset Domain, tambahkan domain parameter dan atur ke atau. ECOMMERCE VIDEO_ON_DEMAND Untuk informasi selengkapnya tentang API, lihat CreateSchema.

    SDK for Python (Boto3)
    import boto3 personalize = boto3.client('personalize') with open('schemaFile.json') as f: createSchemaResponse = personalize.create_schema( name = 'schema name', schema = f.read() ) schema_arn = createSchemaResponse['schemaArn'] print('Schema ARN:' + schema_arn )
    SDK for Java 2.x
    public static String createSchema(PersonalizeClient personalizeClient, String schemaName, String filePath) { String schema = null; try { schema = new String(Files.readAllBytes(Paths.get(filePath))); } catch (IOException e) { System.out.println(e.getMessage()); } try { CreateSchemaRequest createSchemaRequest = CreateSchemaRequest.builder() .name(schemaName) .schema(schema) .build(); String schemaArn = personalizeClient.createSchema(createSchemaRequest).schemaArn(); System.out.println("Schema arn: " + schemaArn); return schemaArn; } catch(PersonalizeException e) { System.err.println(e.awsErrorDetails().errorMessage()); System.exit(1); } return ""; }
    SDK for JavaScript v3
    // Get service clients module and commands using ES6 syntax. import { CreateSchemaCommand } from "@aws-sdk/client-personalize"; import { personalizeClient } from "./libs/personalizeClients.js"; // Or, create the client here. // const personalizeClient = new PersonalizeClient({ region: "REGION"}); import fs from 'fs'; let schemaFilePath = "SCHEMA_PATH"; let mySchema = ""; try { mySchema = fs.readFileSync(schemaFilePath).toString(); } catch (err) { mySchema = 'TEST' // For unit tests. } // Set the schema parameters. export const createSchemaParam = { name: 'NAME', /* required */ schema: mySchema /* required */ }; export const run = async () => { try { const response = await personalizeClient.send(new CreateSchemaCommand(createSchemaParam)); console.log("Success", response); return response; // For unit tests. } catch (err) { console.log("Error", err); } }; run();

    Amazon Personalize mengembalikan ARN skema baru. Rekam karena Anda akan membutuhkannya di langkah berikutnya.

  3. Buat kumpulan data menggunakan CreateDataset operasi. Kode berikut menunjukkan cara membuat dataset. Tentukan Nama Sumber Daya Amazon (ARN) grup kumpulan data Anda, skema ARN dari langkah sebelumnya, dan tentukan jenis kumpulan data. Nilai tipe dataset dapat berupaInteractions,,Users, ItemsActions, atauAction_Interactions. Untuk informasi tentang berbagai jenis kumpulan data, lihat. Dataset dan skema

    SDK for Python (Boto3)
    import boto3 personalize = boto3.client('personalize') response = personalize.create_dataset( name = 'dataset_name', schemaArn = 'schema_arn', datasetGroupArn = 'dataset_group_arn', datasetType = 'dataset_type' ) print ('Dataset Arn: ' + response['datasetArn'])
    SDK for Java 2.x
    public static String createDataset(PersonalizeClient personalizeClient, String datasetName, String datasetGroupArn, String datasetType, String schemaArn) { try { CreateDatasetRequest request = CreateDatasetRequest.builder() .name(datasetName) .datasetGroupArn(datasetGroupArn) .datasetType(datasetType) .schemaArn(schemaArn).build(); String datasetArn = personalizeClient.createDataset(request).datasetArn(); System.out.println("Dataset " + datasetName + " created. Dataset ARN: " + datasetArn); return datasetArn; } catch(PersonalizeException e) { System.err.println(e.awsErrorDetails().errorMessage()); System.exit(1); } return ""; }
    SDK for JavaScript v3
    // Get service clients module and commands using ES6 syntax. import { CreateDatasetCommand } from "@aws-sdk/client-personalize"; import { personalizeClient } from "./libs/personalizeClients.js"; // Or, create the client here. // const personalizeClient = new PersonalizeClient({ region: "REGION"}); // Set the dataset's parameters. export const createDatasetParam = { datasetGroupArn: 'DATASET_GROUP_ARN', /* required */ datasetType: 'DATASET_TYPE', /* required */ name: 'NAME', /* required */ schemaArn: 'SCHEMA_ARN' /* required */ } export const run = async () => { try { const response = await personalizeClient.send(new CreateDatasetCommand(createDatasetParam)); console.log("Success", response); return response; // For unit tests. } catch (err) { console.log("Error", err); } }; run();

    Setelah membuat kumpulan data, Anda siap untuk mengimpor data pelatihan Anda. Lihat Mempersiapkan dan mengimpor data massal.