데이터세트 생성 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터세트 생성

참고

5GB보다 큰 데이터 세트를 Amazon SageMaker Canvas로 가져오는 경우 Canvas의 Data Wrangler 기능을 사용하여 데이터 흐름을 생성하는 것이 좋습니다. Data Wrangler는 데이터 조인연결과 같은 고급 데이터 준비 기능을 지원합니다. 데이터 흐름을 생성한 후 데이터 흐름을 Canvas 데이터 세트로 내보내고 모델 구축을 시작할 수 있습니다. 자세한 내용은 모델을 생성하려면 내보내기 단원을 참조하십시오.

다음 섹션에서는 Amazon SageMaker Canvas에서 데이터 세트를 생성하는 방법을 설명합니다. 사용자 지정 모델의 경우 테이블 및 이미지 데이터용 데이터 세트를 생성할 수 있습니다. 모델의 경우 Ready-to-use 테이블 형식 및 이미지 데이터 세트와 문서 데이터 세트를 사용할 수 있습니다. 다음 정보를 기반으로 워크플로를 선택합니다.

데이터 세트는 여러 파일로 구성될 수 있습니다. 예를 들어 CSV 형식의 인벤토리 데이터 파일이 여러 개 있을 수 있습니다. 파일의 스키마(또는 열 이름 및 데이터 유형)가 일치하면 이러한 파일을 데이터 세트로 함께 업로드할 수 있습니다.

Canvas는 또한 여러 버전의 데이터 세트 관리를 지원합니다. 데이터 세트를 만들면 첫 번째 버전은 V1로 레이블이 지정됩니다. 데이터 세트를 업데이트하여 데이터 세트의 새 버전을 만들 수 있습니다. 수동 업데이트를 수행하거나 새 데이터로 데이터 세트를 업데이트하는 자동 일정을 설정할 수 있습니다. 자세한 내용은 데이터 세트 업데이트을 참조하세요.

Canvas로 데이터를 가져올 때는 데이터가 다음 테이블의 요구 사항을 충족하는지 확인하세요. 제한 사항은 빌드하는 모델 유형에 따라 다릅니다.

Limit 2 범주, 3 이상 범주, 수치 및 시계열 모델 텍스트 예측 모델 이미지 예측 모델 *모델에 대한 Ready-to-use 문서 데이터

지원되는 파일 형식

CSV 및 Parquet(로컬 업로드, Amazon S3 또는 데이터베이스)

JSON (데이터베이스)

CSV 및 Parquet(로컬 업로드, Amazon S3 또는 데이터베이스)

JSON (데이터베이스)

JPG, PNG

PDF, JPG, PNG, TIFF

최대 파일 크기

로컬 업로드: 5GB

데이터 소스: PBs

로컬 업로드: 5GB

데이터 소스: PBs

이미지당 30MB

문서당 5MB

한 번에 업로드할 수 있는 최대 파일 수

30

30

해당 사항 없음

N/A

최대 열 수

1,000

1,000

N/A

N/A

빠른 빌드를 위한 최대 항목 수(행, 이미지 또는 문서)

N/A

7,500행

이미지 5,000개

N/A

표준 빌드의 최대 항목 수(행, 이미지 또는 문서)

N/A

150,000행

이미지 18만 개

N/A

빠른 빌드의 최소 항목 수(행)

2 범주: 500행

3 이상 범주, 숫자, 시계열: 해당 사항 없음

N/A

해당 사항 없음

N/A

표준 빌드의 최소 항목 수(행, 이미지 또는 문서)

250행

50행

이미지 50개

N/A

라벨당 최소 항목 수(행 또는 이미지)

N/A

25행

25행

N/A

최소 레이블 수

2 범주: 2

3 이상 범주: 3

숫자, 시계열: 해당 사항 없음

2

2

N/A

랜덤 샘플링을 위한 최소 샘플 크기

500

N/A

해당 사항 없음

N/A

랜덤 샘플링을 위한 최대 샘플 크기

200,000

N/A

해당 사항 없음

N/A

최대 레이블 수

2 범주: 2

3 이상 범주, 숫자, 시계열: 해당 사항 없음

1000

1000

N/A

*문서 데이터는 현재 문서 데이터를 수락하는 Ready-to-use 모델에 대해서만 지원됩니다. 문서 데이터로는 사용자 지정 모델을 만들 수 없습니다.

또한 다음과 같은 제한 사항이 있습니다.

  • Amazon S3 버킷에서 데이터를 가져올 때 Amazon S3 버킷 이름에 가 포함되어 있지 않은지 확인합니다.. 버킷 이름에 가 포함된 경우 Canvas로 데이터를 가져오려고 .할 때 오류가 발생할 수 있습니다.

  • 테이블 형식 데이터의 경우 Canvas는 로컬 업로드와 Amazon S3 가져오기 모두에 대해.csv, .parquet, .parq, .pqt 이외의 확장자를 가진 파일을 선택할 수 없습니다. CSV 파일은 일반 또는 사용자 지정 구분자를 사용할 수 있으며 새 행을 나타내는 경우를 제외하고 새 줄 문자가 없어야 합니다.

  • Parquet 파일을 사용하는 테이블 형식 데이터의 경우 다음 사항에 유의하세요.

    • Parquet 파일에는 지도 및 목록과 같은 복잡한 유형이 포함될 수 없습니다.

    • Parquet 파일의 열 이름에는 공백이 있어서는 안 됩니다.

    • 압축을 사용하는 경우 Parquet 파일은 gzip 또는 snappy 압축 유형을 사용해야 합니다. 이전 압축 유형에 대한 자세한 내용은 gzip 설명서snappy 설명서를 참조하세요.

  • 이미지 데이터의 경우 레이블이 지정되지 않은 이미지가 있으면 모델을 빌드하기 전에 이미지에 레이블을 지정해야 합니다. Canvas 애플리케이션 내에서 이미지에 레이블을 할당하는 방법에 대한 자세한 내용은 이미지 데이터 세트 편집을 참조하세요.

  • 자동 데이터 세트 업데이트 또는 자동 배치 예측 구성을 설정하는 경우 Canvas 애플리케이션에서 총 20개의 구성만 생성할 수 있습니다. 자세한 내용은 자동화 관리 방법을 참조하세요.

데이터 세트를 가져온 후에는 언제든지 데이터 세트 페이지에서 데이터 세트를 볼 수 있습니다.

테이블 형식 데이터 가져오기

테이블 형식 데이터 세트를 사용하여 범주형, 수치형, 시계열 예측, 텍스트 예측 모델을 구축할 수 있습니다. 이전 데이터 세트 가져오기 섹션의 제한 사항 표를 검토하여 데이터가 테이블 형식의 데이터에 대한 요구 사항을 충족하는지 확인합니다.

Canvas로 테이블 형식 데이터 세트를 가져오려면 다음 절차를 따르세요.

  1. SageMaker Canvas 애플리케이션을 엽니다.

  2. 왼쪽 탐색 창에서 데이터 세트를 선택합니다.

  3. 데이터 가져오기를 선택합니다.

  4. 드롭다운 메뉴에서 테이블 을 선택합니다.

  5. 팝업 대화 상자의 데이터 세트 이름 필드에 데이터 세트 이름을 입력하고 생성을 선택합니다.

  6. 테이블 형식 데이터 세트 생성 페이지에서 데이터 소스 드롭다운 메뉴를 엽니다.

  7. 데이터 원본을 선택합니다.

    • 컴퓨터에서 파일을 업로드하려면 로컬 업로드를 선택합니다.

    • Amazon S3 버킷 또는 Snowflake 데이터베이스와 같은 다른 소스에서 데이터를 가져오려면 검색 데이터 원본 표시줄에서 데이터 원본을 검색하세요. 그런 다음 원하는 데이터 원본의 타일을 선택합니다.

      참고

      활성 연결이 있는 타일에서만 데이터를 가져올 수 있습니다. 사용할 수 없는 데이터 원본에 연결하려면 관리자에게 문의하세요. 관리자인 경우 데이터 원본에 연결을 참조하세요.

    다음 스크린샷은 데이터 원본 드롭다운 메뉴를 보여줍니다.

    데이터 원본 드롭다운 메뉴와 검색 창에서 데이터 원본 검색을 보여주는 스크린샷입니다.
  8. (선택 사항) Amazon Redshift 또는 Snowflake 데이터베이스에 처음으로 연결하는 경우 연결을 생성하기 위한 대화 상자가 나타납니다. 대화 상자에 보안 인증 정보를 입력하고 연결 생성을 선택합니다. 이미 연결이 되어 있다면 연결을 선택하세요.

  9. 데이터 원본에서 가져올 파일을 선택합니다. 로컬 업로드 및 Amazon S3에서 가져오기의 경우 파일을 선택할 수 있습니다. Amazon S3에만 입력 S3 엔드포인트 필드에 버킷 또는 S3 액세스 포인트ARN의 S3, URI별칭 또는 를 직접 입력한 다음 가져올 파일을 선택할 수 있는 옵션이 있습니다. S3 데이터베이스 소스의 경우 왼쪽 탐색 창에서 데이터 테이블을 만들 수 drag-and-drop 있습니다.

  10. (선택 사항) SQL 쿼리를 지원하는 테이블 형식의 데이터 소스(예: Amazon Redshift, Amazon Athena 또는 Snowflake)의 경우 쿼리를 가져오기 전에 에서 편집SQL을 선택하여 SQL 쿼리를 만들 수 있습니다.

    다음 스크린샷은 Amazon Athena 데이터 소스에 대한 편집 SQL 보기를 보여줍니다.

    Amazon Athena 데이터에 대한 편집 SQL 보기에서 SQL 쿼리를 보여주는 스크린샷입니다.
  11. 데이터를 가져오기 전에 데이터 세트 미리 보기를 선택합니다.

  12. 가져오기 설정 에서 데이터 세트 이름을 입력하거나 기본 데이터 세트 이름을 사용합니다.

  13. (선택 사항) Amazon S3에서 가져오는 데이터의 경우 고급 설정이 표시되며 다음 필드를 작성할 수 있습니다.

    1. 데이터 세트의 첫 번째 행을 열 이름으로 사용하려면 에서 첫 번째 행을 헤더로 사용 옵션을 토글합니다. 여러 파일을 선택한 경우 각 파일에 적용됩니다.

    2. CSV 파일을 가져오는 경우 파일 인코딩(CSV) 드롭다운에서 데이터 세트 파일의 인코딩을 선택합니다. 이 기본값UTF-8입니다.

    3. 구분 기호 드롭다운에서 데이터의 각 셀을 구분하는 구분 기호를 선택합니다. 기본 구분 기호는 입니다,. 사용자 지정 구분 기호를 지정할 수도 있습니다.

    4. Canvas가 다중 라인 셀에 대한 전체 데이터 세트를 수동으로 구문 분석하도록 하려면 다중 라인 감지를 선택합니다. 기본적으로 이 옵션은 선택되지 않으며 Canvas는 데이터 샘플을 가져와 다중 라인 지원을 사용할지 여부를 결정합니다. 하지만 Canvas는 샘플에서 다중 라인 셀을 감지하지 못할 수 있습니다. 다중 라인 셀이 있는 경우 다중 라인 감지 옵션을 선택하여 Canvas가 전체 데이터 세트에서 다중 라인 셀을 확인하도록 하는 것이 좋습니다.

  14. 데이터를 가져올 준비가 되면 데이터 세트 생성을 선택합니다.

데이터 세트를 Canvas로 가져오는 동안 데이터 세트 페이지에 나열된 데이터 세트를 확인할 수 있습니다. 이 페이지에서 데이터 세트 세부 정보 보기을 수행할 수 있습니다.

데이터 세트 상태Ready로 표시되면 Canvas가 데이터를 성공적으로 가져온 것이며 모델 구축을 진행할 수 있습니다.

Amazon Redshift 데이터베이스 또는 SaaS 커넥터와 같은 데이터 원본에 연결되어 있는 경우 해당 연결로 돌아갈 수 있습니다. Amazon Redshift와 Snowflake의 경우 다른 데이터 세트를 생성하고 데이터 가져오기 페이지로 돌아가서 해당 연결의 데이터 원본 타일을 선택하여 다른 연결을 추가할 수 있습니다. 드롭다운 메뉴에서 이전 연결을 열거나 연결 추가를 선택할 수 있습니다.

참고

SaaS 플랫폼의 경우 데이터 원본당 하나의 연결만 가질 수 있습니다.

이미지 데이터 가져오기

이미지 데이터 세트를 사용하면 이미지의 레이블을 예측하는 단일 레이블 이미지 예측 사용자 지정 모델을 만들 수 있습니다. 이전 데이터 세트 가져오기 섹션의 제한 사항을 검토하여 이미지 데이터 세트가 이미지 데이터에 대한 요구사항을 충족하는지 확인하세요.

참고

로컬 파일 업로드 또는 Amazon S3 버킷에서만 이미지 데이터 세트를 가져올 수 있습니다. 또한 이미지 데이터 세트의 경우 라벨당 최소 25개의 이미지가 있어야 합니다.

다음 절차에 따라 Canvas로 이미지 데이터 세트를 가져옵니다.

  1. SageMaker Canvas 애플리케이션을 엽니다.

  2. 왼쪽 탐색 창에서 데이터 세트를 선택합니다.

  3. 데이터 가져오기를 선택합니다.

  4. 드롭다운 메뉴에서 이미지를 선택합니다.

  5. 팝업 대화 상자의 데이터 세트 이름 필드에 데이터 세트 이름을 입력하고 생성을 선택합니다.

  6. 가져오기 페이지에서 데이터 원본 드롭다운 메뉴를 엽니다.

  7. 데이터 원본을 선택합니다. 컴퓨터에서 파일을 업로드하려면 로컬 업로드를 선택합니다. Amazon S3에서 파일을 가져오려면 Amazon S3를 선택합니다.

  8. 컴퓨터 또는 Amazon S3 버킷에서 업로드하려는 이미지 또는 이미지 폴더를 선택합니다.

  9. 데이터를 가져올 준비가 되면 데이터 가져오기를 선택합니다.

데이터 세트를 Canvas로 가져오는 동안 데이터 세트 페이지에 나열된 데이터 세트를 확인할 수 있습니다. 이 페이지에서 데이터 세트 세부 정보 보기을 수행할 수 있습니다.

데이터 세트 상태Ready로 표시되면 Canvas가 데이터를 성공적으로 가져온 것이며 모델 구축을 진행할 수 있습니다.

모델을 만들 때 이미지 데이터 세트를 편집하고, 라벨을 할당 또는 재할당하고, 이미지를 추가하거나, 데이터 세트에서 이미지를 삭제할 수 있습니다. 이미지 데이터 세트를 편집하는 방법에 대한 자세한 내용은 이미지 데이터 세트 편집을 참조하세요.

문서 데이터 가져오기

비용 분석, 자격 증명 문서 분석, 문서 분석 및 문서 쿼리를 위한 모델은 Ready-to-use 문서 데이터를 지원합니다. 문서 데이터로는 사용자 지정 모델을 구축할 수 없습니다.

문서 데이터 세트를 사용하면 비용 분석, 자격 증명 문서 분석, 문서 분석 및 문서 쿼리 Ready-to-use 모델에 대한 예측을 생성할 수 있습니다. 데이터세트 생성 섹션의 제한 테이블을 검토하여 문서 데이터 세트가 문서 데이터에 대한 요구 사항을 충족하는지 확인하세요.

참고

로컬 파일 업로드 또는 Amazon S3 버킷에서만 문서 데이터 세트를 가져올 수 있습니다.

Canvas에 문서 데이터 세트를 가져오려면 다음 절차를 따르세요.

  1. SageMaker Canvas 애플리케이션을 엽니다.

  2. 왼쪽 탐색 창에서 데이터 세트를 선택합니다.

  3. 데이터 가져오기를 선택합니다.

  4. 드롭다운 메뉴에서 문서를 선택합니다.

  5. 팝업 대화 상자의 데이터 세트 이름 필드에 데이터 세트 이름을 입력하고 생성을 선택합니다.

  6. 가져오기 페이지에서 데이터 원본 드롭다운 메뉴를 엽니다.

  7. 데이터 원본을 선택합니다. 컴퓨터에서 파일을 업로드하려면 로컬 업로드를 선택합니다. Amazon S3에서 파일을 가져오려면 Amazon S3를 선택합니다.

  8. 컴퓨터 또는 Amazon S3 버킷에서 업로드하려는 문서 파일을 선택합니다.

  9. 데이터를 가져올 준비가 되면 데이터 가져오기를 선택합니다.

데이터 세트를 Canvas로 가져오는 동안 데이터 세트 페이지에 나열된 데이터 세트를 확인할 수 있습니다. 이 페이지에서 데이터 세트 세부 정보 보기을 수행할 수 있습니다.

데이터 세트 상태Ready로 표시되면 Canvas가 데이터를 성공적으로 가져온 것입니다.

데이터 세트 페이지에서 데이터 세트를 선택하여 미리 볼 수 있으며, 데이터 세트의 처음 100개 문서가 표시됩니다.

데이터 세트 세부 정보 보기

각 데이터 세트에 대해 데이터 세트의 모든 파일, 데이터 세트의 버전 기록, 데이터 세트의 자동 업데이트 구성을 볼 수 있습니다. 데이터 세트 페이지에서 데이터 세트 업데이트또는 사용자 지정 모델 작동 방식등의 작업을 시작할 수도 있습니다.

데이터 세트의 세부정보를 보려면 다음 작업을 수행합니다.

  1. SageMaker Canvas 애플리케이션을 엽니다.

  2. 왼쪽 탐색 창에서 데이터 세트를 선택합니다.

  3. 데이터 세트 목록에서 데이터 세트를 선택합니다.

데이터 탭에서 데이터 미리 보기를 볼 수 있습니다. 데이터 세트 세부 정보를 선택하면 데이터 세트에 포함된 모든 파일을 볼 수 있습니다. 파일을 선택하면 미리 보기에서 해당 파일의 데이터만 볼 수 있습니다. 이미지 데이터 세트의 경우 미리 보기에는 데이터 세트의 처음 100개 이미지만 표시됩니다.

버전 기록 탭에서 데이터 세트의 모든 버전 목록을 볼 수 있습니다. 데이터 세트를 업데이트할 때마다 새 버전이 만들어집니다. 데이터 세트 업데이트에 대한 자세한 내용은 데이터 세트 업데이트을 참조하세요. 다음 스크린샷은 Canvas 애플리케이션의 버전 기록 탭을 보여줍니다.

데이터 세트 버전 목록이 있는 데이터 세트의 버전 기록 탭 스크린샷입니다.

자동 업데이트 탭에서 데이터 세트 자동 업데이트를 활성화하고 데이터 세트를 정기적으로 업데이트하도록 구성을 설정할 수 있습니다. 데이터 세트에 대한 자동 업데이트를 설정하는 방법에 대한 자세한 내용은 데이터 세트 자동 업데이트 구성을 참조하세요. 다음 스크린샷은 자동 업데이트가 켜진 자동 업데이트 탭과 데이터 세트에서 수행된 자동 업데이트 작업 목록을 보여줍니다.

켜진 자동 업데이트와 자동 업데이트 작업 목록을 보여주는 데이터 세트의 자동 업데이트 탭입니다.