1단계: 데이터 준비 - Amazon Machine Learning

더 이상 Amazon Machine Learning 서비스를 업데이트하거나 새 사용자를 받지 않습니다. 이 설명서는 기존 사용자에 제공되지만 더 이상 업데이트되지 않습니다. 자세한 내용은 Amazon Machine Learning이란? 단원을 참조하세요.

1단계: 데이터 준비

기계 학습에서는 일반적으로 학습 프로세스를 시작하기 전에 데이터를 확보하고 형식이 올바른지 확인합니다. 본 자습서의 목적에 맞게 UCI 기계 학습 리포지토리에서 샘플 데이터 세트를 확보했고 Amazon ML 지침에 맞게 형식을 지정했고 다운로드할 수 있게 만들었습니다. 이 주제의 절차에 따라 Amazon Simple Storage Service(Amazon S3) 저장 위치에서 데이터 세트를 다운로드하고 자체 S3 버킷으로 업로드합니다.

Amazon ML 형식 요구 사항은 Amazon ML의 데이터 형식에 대한 이해 단원을 참조하세요.

데이터 세트를 다운로드하려면
  1. banking.zip을 클릭하여 은행 정기 예금과 유사한 상품을 구입한 고객의 과거 데이터가 포함된 파일을 다운로드합니다. 폴더의 압축을 풀고 banking.csv 파일을 컴퓨터에 저장합니다.

  2. banking-batch.zip을 클릭하여 잠재 고객이 귀하의 제안에 응답하는지 여부를 예측하는 데 사용할 파일을 다운로드합니다. 폴더의 압축을 풀고 banking-batch.csv 파일을 컴퓨터에 저장합니다.

  3. banking.csv을 엽니다. 데이터의 행 및 열을 확인할 수 있습니다. 헤더 열에는 각 열의 속성 이름이 들어 있습니다. 속성은 각 고객의 특정한 특성을 설명하는 이름이 지정된 고유한 속성입니다. 예를 들어 nr_employed는 고객의 취업 상태를 나타냅니다. 각 행은 단일 고객에 대한 관측치 모음을 나타냅니다.

    Spreadsheet preview showing header row with columns for euribor3m, nr_employed, and y.

    ML 모델에게서 “이 고객이 새 상품에 가입할 것입니까?”라는 질문의 대답을 얻고 싶습니다. banking.csv 데이터 세트에서 이 질문에 대한 대답은 1(yes인 경우) 또는 0(no인 경우)의 값을 포함하는 속성 y입니다. Amazon ML이 예측 방법을 학습하길 원하는 속성을 대상 속성이라고 합니다.

    참고

    속성 y는 이진 속성입니다. 이 속성은 두 개의 값 중 하나만 포함할 수 있으며 이 경우 0 또는 1입니다. 원본 UCI 데이터 세트에서 y 속성은 Yes 또는 No입니다. 원본 데이터 세트를 편집해 드렸습니다. 이제 yes를 의미하는 속성 y의 모든 값은 1이며, no를 의미하는 모든 값은 0입니다. 자체 데이터를 사용하는 경우 이진 속성에 다른 값을 사용할 수 있습니다. 유효한 값에 대한 자세한 내용은 AttributeType 필드 사용 단원을 참조하세요.

다음 예제에서는 속성 y의 값을 이진 속성 0 및 1로 변경하기 전후의 데이터를 보여줍니다.

Data table showing 'banking.csv' with columns for 'euribor3m', 'nr_employed', and binary 'y' values.
Partial view of a CSV file showing banking data with columns for euribor3m, nr_employed, and y.

banking-batch.csv 파일에는 y 속성이 없습니다. ML 모델을 생성한 후에는 이 모델을 사용하여 해당 파일의 각 레코드에 대해 y를 예측합니다.

그 다음 banking.csv banking-batch.csv 파일을 Amazon S3에 업로드합니다.

Amazon S3 위치에 파일을 업로드하려면
  1. AWS Management Console에 로그인한 후 https://console.aws.amazon.com/s3/ 에서 Amazon S3 콘솔을 엽니다.

  2. 모든 버킷 목록에서 버킷을 생성하거나 파일을 업로드할 위치를 선택합니다.

  3. 탐색 모음에서 업로드를 선택합니다.

  4. 파일 추가를 선택합니다.

  5. 대화 상자에서 바탕 화면으로 이동하여 banking.csvbanking-batch.csv를 선택한 다음 열기를 선택합니다.

이제 학습 데이터 소스를 생성할 준비가 되었습니다.