2단계: 데이터세트 및 스키마 생성 - Amazon Personalize

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

2단계: 데이터세트 및 스키마 생성

완료한 후1단계: 사용자 지정 데이터세트 그룹 생성데이터 세트를 생성할 준비가 되었습니다. 데이터 세트데이터를 위한 Amazon Personalize 컨테이너입니다. 데이터세트를 생성할 때 데이터세트의 스키마도 생성합니다. A개요Amazon Personalize Personalize에 데이터 구조에 대해 알리고 Amazon Personalize Personalize에서 데이터를 분석할 수 있도록 합니다.

Amazon Personalize 콘솔을 사용하여 데이터 세트를 생성합니다.AWS Command Line Interface(AWS CLI), 또는AWSSDK. 다양한 유형의 데이터, 데이터 집합 및 스키마 요구 사항에 대한 자세한 정보는 단원을 참조하십시오.데이터 집합 및 Schema.

데이터세트 및 스키마 생성 (콘솔)

데이터세트 그룹의 첫 번째 데이터셋인 경우 첫 번째 데이터셋 유형은 상호작용 데이터셋이 됩니다. 콘솔에서 Interaction 데이터세트를 생성하려면 데이터세트 이름을 지정한 다음 에서 JSON 스키마를 지정합니다.Avro 형식. 이 데이터세트 그룹의 첫 번째 데이터셋이 아닌 경우 데이터셋 유형을 선택한 다음 이름과 스키마를 지정합니다.

Amazon Personalize 데이터 세트 및 스키마 요구 사항에 대한 자세한 내용은 을 참조하십시오.데이터 집합 및 Schema.

참고

방금 완료했다면1단계: 사용자 지정 데이터세트 그룹 생성그리고 당신은 이미사용자-항목 상호 작용페이지, 이 절차의 4단계로 건너뜁니다.

데이터 및 스키마를 생성하려면

  1. 에서 Amazon Personalize 콘솔을 엽니다.https://console.aws.amazon.com/personalize/home을 계정에 로그인합니다.

  2. 온 더데이터 그룹페이지에서 생성한 데이터셋 그룹 선택1단계: 사용자 지정 데이터세트 그룹 생성. 그러면 데이터셋 그룹이 표시됩니다.대시보드.

  3. 에서데이터 업로드섹션에서 가져오려는 데이터 세트 유형 (Amazon Personalize 데이터 세트에는 상호 작용, 사용자 또는 항목 포함) 에서 다음을 선택하십시오.가져오기. 이설정하기 < dataset type >페이지가 표시됩니다.

  4. In데이터 세부 정보, 에 대한데이터 이름에서 데이터 세트 이름을 지정합니다.

  5. In스키마 세부 정보, 에 대한스키마 선택, 기존 스키마를 선택하거나 선택하십시오.새 스키마 생성.

  6. 새 스키마를 만드는 경우스키마 정의, 데이터와 일치하는 스키마 JSON을 붙여 넣습니다. 에 있는 예를 사용하십시오.데이터 집합 및 Schema가이드로. 스키마를 생성한 후에는 스키마를 변경할 수 없습니다.

  7. New schema name(새 스키마 이름)에서 새 스키마의 이름을 지정합니다.

  8. 에 대한태그원하는 경우 원하는 태그를 추가할 수 있습니다. Amazon Personalize 리소스 태그 지정에 대한 자세한 내용은 단원을 참조하십시오.Amazon Personalize.

  9. 선택다음의 지침을 따르십시오. 3단계: 과거 데이터 가져오기데이터를 가져올 수 있습니다.

데이터셋 및 스키마 생성 (AWS CLI)

를 사용하여 데이터세트 및 스키마를 만들려면AWS CLI먼저 에서 스키마를 정의합니다.Avro 형식를 사용하여 Amazon Personalize 추가하십시오.CreateSchema작업. 그런 다음 을 사용하여 데이터 세트를 생성합니다.CreateDataset작업. Amazon Personalize 데이터 세트 및 스키마 요구 사항에 대한 자세한 내용은 을 참조하십시오.데이터 집합 및 Schema.

스키마와 데이터 생성하려면

  1. Avro 형식으로 스키마 파일을 생성하고 JSON 파일로 저장합니다. 이 파일은 생성하려는 데이터세트 유형 (예: 상호 작용) 을 기반으로 해야 합니다.

    스키마는 데이터 및 스키마의 열과 일치해야 합니다.nameAmazon Personalize Personalize에서 인식하는 세 가지 유형의 데이터 세트 중 하나와 일치해야 합니다. 다음은 최소 상호 작용 데이터 집합 스키마의 예입니다. 더 많은 예제는 데이터 집합 및 Schema를 참조하세요.

    { "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }
  2. 다음 명령을 실행하여 Amazon Personalize Personalize에서 스키마를 생성합니다. 스키마를 생성한 후에는 스키마를 변경할 수 없습니다. 교체schemaName스키마의 이름으로 바꿉니다.file://SchemaName.json이전 단계에서 생성한 JSON 파일의 위치를 사용합니다. 이 예제에서는 이 파일을 현재 폴더에 속한 것으로 표시합니다. API에 대한 자세한 내용은 을 참조하세요CreateSchema

    aws personalize create-schema \ --name SchemaName \ --schema file://SchemaName.json

    다음 예제와 같이 스키마 Amazon 리소스 이름 (ARN) 이 표시됩니다.

    { "schemaArn": "arn:aws:personalize:us-west-2:acct-id:schema/SchemaName" }
  3. 다음 명령을 실행하여 빈 데이터 세트를 생성합니다. 데이터 세트 Amazon 리소스 이름 (ARN) 을 입력합니다.데이터 세트 그룹을 생성합니다.AWS CLI)및 이전 단계의 Schema ARN dataset-type은 이전 단계의 스키마 name과 일치해야 합니다. API에 대한 자세한 내용은 을 참조하세요CreateDataset

    aws personalize create-dataset \ --name Dataset Name \ --dataset-group-arn Dataset Group ARN \ --dataset-type Dataset Type \ --schema-arn Schema Arn

    다음 예제와 같이 데이터 세트 ARN이 표시됩니다.

    { "datasetArn": "arn:aws:personalize:us-west-2:acct-id:dataset/DatasetName/INTERACTIONS" }
  4. 나중에 사용할 수 있도록 데이터세트 ARN을 기록합니다. 데이터세트를 생성했으면 이제 훈련 데이터를 가져올 수 있습니다. 3단계: 과거 데이터 가져오기을 참조하세요.

데이터셋 및 스키마 생성 (AWSSDK)

를 사용하여 데이터세트 및 스키마를 만들려면AWSSDK, 먼저 스키마를 정의합니다.Avro 형식를 사용하여 Amazon Personalize 추가하십시오.CreateSchema작업. 스키마를 생성한 후에는 스키마를 변경할 수 없습니다. 그런 다음 을 사용하여 데이터 세트를 생성합니다.CreateDataset작업. Amazon Personalize 데이터 세트 및 스키마 요구 사항에 대한 자세한 내용은 을 참조하십시오.데이터 집합 및 Schema.

스키마와 데이터 생성하려면

  1. Avro 형식으로 스키마 파일을 생성하고 작업 디렉토리에 JSON 파일로 저장합니다.

    스키마는 데이터 및 스키마의 열과 일치해야 합니다.nameAmazon Personalize Personalize에서 인식하는 세 가지 유형의 데이터 세트 중 하나와 일치해야 합니다. 다음은 최소 상호 작용 데이터 집합 스키마의 예입니다. 더 많은 예제는 데이터 집합 및 Schema를 참조하세요.

    { "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }
  2. 를 사용하여 스키마를 생성합니다.CreateSchemaAPI 작업

    SDK for Python (Boto3)

    다음을 사용합니다.create_schema스키마를 생성하는 메서드입니다. 교체schema name스키마의 이름으로 입력하세요.

    import boto3 personalize = boto3.client('personalize') with open('schemaFile.json') as f: createSchemaResponse = personalize.create_schema( name = 'schema name', schema = f.read() ) schema_arn = createSchemaResponse['schemaArn'] print('Schema ARN:' + schema_arn )
    SDK for Java 2.x

    다음을 사용합니다.createSchema스키마를 생성하는 메서드입니다. 다음을 파라미터로 전달합니다. a PersonalizeClient, 스키마의 이름, 스키마 JSON 파일의 파일 경로.

    public static String createSchema(PersonalizeClient personalizeClient, String schemaName, String filePath) { String schema = null; try { schema = new String(Files.readAllBytes(Paths.get(filePath))); } catch (IOException e) { System.out.println(e.getMessage()); } try { CreateSchemaRequest createSchemaRequest = CreateSchemaRequest.builder() .name(schemaName) .schema(schema) .build(); String schemaArn = personalizeClient.createSchema(createSchemaRequest).schemaArn(); System.out.println("Schema arn: " + schemaArn); return schemaArn; } catch(PersonalizeException e) { System.err.println(e.awsErrorDetails().errorMessage()); System.exit(1); } return ""; }

    Amazon Personalize 퍼스널라이즈는 새 스키마의 ARN을 반환합니다. 이후 단계에서 사용해야 하므로 이를 기록해 둡니다.

  3. 을 사용하여 데이터 생성CreateDataset작업. 다양한 유형의 데이터 세트에 대한 자세한 정보는 단원을 참조하십시오.데이터 집합 및 Schema.

    SDK for Python (Boto3)

    다음을 사용합니다.create_datasetAmazon Personalize 데이터 생성 방법 를 지정합니다.datasetGroupArn에 반환되었습니다데이터 세트 그룹을 생성합니다.AWSSDK). 사용schemaArn이전 단계에서 생성되었습니다. 교체dataset type업로드하는 데이터세트 유형 (상호작용, 사용자 또는 항목) 을 사용합니다.

    import boto3 personalize = boto3.client('personalize') response = personalize.create_dataset( name = 'datase_name', schemaArn = 'schema_arn', datasetGroupArn = 'dataset_group_arn', datasetType = 'dataset_type' ) print ('Dataset Arn: ' + response['datasetArn'])
    SDK for Java 2.x

    다음을 사용합니다.createDatasetAmazon Personalize 데이터 생성 방법 다음을 파라미터로 전달합니다. a PersonalizeClient, 데이터셋 이름,schemaArn이전 단계에서 생성한 데이터셋 그룹 ARN 및 데이터셋 유형 (상호작용, 사용자 또는 항목).

    public static String createDataset(PersonalizeClient personalizeClient, String datasetName, String datasetGroupArn, String datasetType, String schemaArn) { try { CreateDatasetRequest request = CreateDatasetRequest.builder() .name(datasetName) .datasetGroupArn(datasetGroupArn) .datasetType(datasetType) .schemaArn(schemaArn).build(); String datasetArn = personalizeClient.createDataset(request).datasetArn(); System.out.println("Dataset " + datasetName + " created. Dataset ARN: " + datasetArn); return datasetArn; } catch(PersonalizeException e) { System.err.println(e.awsErrorDetails().errorMessage()); System.exit(1); } return ""; }

    데이터세트를 생성했으면 이제 훈련 데이터를 가져올 수 있습니다. 3단계: 과거 데이터 가져오기을 참조하세요.