테이블 형식 데이터 가져오기 이미지 데이터 가져오기 문서 데이터 가져오기 데이터세트 세부 정보 보기

데이터세트 생성

참고

5GB보다 큰 데이터세트를 Amazon SageMaker Canvas로 가져오는 경우 Canvas의 Data Wrangler 기능을 사용하여 데이터 흐름을 만드는 것이 좋습니다. Data Wrangler는 데이터 조인 및 연결과 같은 고급 데이터 준비 기능을 지원합니다. 데이터 흐름을 만든 후 데이터 흐름을 Canvas 데이터세트로 내보내고 모델 빌드를 시작할 수 있습니다. 자세한 내용은 모델 만들기를 위해 내보내기 섹션을 참조하세요.

다음 섹션에서는 Amazon SageMaker Canvas에서 데이터세트를 생성하는 방법을 설명합니다. 사용자 지정 모델의 경우 테이블 및 이미지 데이터용 데이터세트를 생성할 수 있습니다. 즉시 사용 가능 모델의 경우 테이블 형식 및 이미지 데이터세트와 문서 데이터세트를 사용할 수 있습니다. 다음 정보를 기반으로 워크플로를 선택합니다.

범주형, 숫자형, 텍스트 및 시계열 데이터에 대한 자세한 내용은 테이블 형식 데이터 가져오기을 참조하세요.
이미지 데이터에 대한 내용은 이미지 데이터 가져오기을 참조하세요.
문서 데이터는 문서 데이터 가져오기 섹션을 참조하세요.

데이터세트는 여러 파일로 구성될 수 있습니다. 예를 들어 CSV 형식의 인벤토리 데이터 파일이 여러 개 있을 수 있습니다. 파일의 스키마(또는 열 이름 및 데이터 유형)가 일치하면 이러한 파일을 데이터세트로 함께 업로드할 수 있습니다.

Canvas는 또한 여러 버전의 데이터세트 관리를 지원합니다. 데이터세트를 만들면 첫 번째 버전은 V1로 레이블이 지정됩니다. 데이터세트를 업데이트하여 데이터세트의 새 버전을 만들 수 있습니다. 수동 업데이트를 수행하거나 새 데이터로 데이터세트를 업데이트하는 자동 일정을 설정할 수 있습니다. 자세한 내용은 데이터세트 업데이트 섹션을 참조하세요.

Canvas로 데이터를 가져올 때는 데이터가 다음 테이블의 요구 사항을 충족하는지 확인하세요. 제한 사항은 빌드하는 모델 유형에 따라 다릅니다.

Limit	2 범주, 3 이상 범주, 수치 및 시계열 모델	텍스트 예측 모델	이미지 예측 모델	*즉시 사용 가능 모델에 대한 문서 데이터
지원되는 파일 형식	CSV 및 Parquet(로컬 업로드, Amazon S3 또는 데이터베이스) JSON(데이터베이스)	CSV 및 Parquet(로컬 업로드, Amazon S3 또는 데이터베이스) JSON(데이터베이스)	JPG, PNG	PDF, JPG, PNG, TIFF
최대 파일 크기	로컬 업로드: 5GB 데이터 소스: PB 단위	로컬 업로드: 5GB 데이터 소스: PB 단위	이미지당 30MB	문서당 5MB
한 번에 업로드할 수 있는 최대 파일 수	30	30	해당 사항 없음	N/A
최대 열 수	1,000	1,000	N/A	N/A
빠른 빌드를 위한 최대 항목 수(행, 이미지 또는 문서)	N/A	7,500행	이미지 5,000개	N/A
표준 빌드의 최대 항목 수(행, 이미지 또는 문서)	N/A	150,000행	이미지 18만 개	N/A
빠른 빌드의 최소 항목 수(행)	2 범주: 500행 3 이상 범주, 숫자, 시계열: 해당 사항 없음	N/A	해당 사항 없음	N/A
표준 빌드의 최소 항목 수(행, 이미지 또는 문서)	250행	50행	이미지 50개	N/A
라벨당 최소 항목 수(행 또는 이미지)	N/A	25행	25행	N/A
최소 레이블 수	2 범주: 2 3 이상 범주: 3 숫자, 시계열: 해당 사항 없음	2	2	N/A
랜덤 샘플링을 위한 최소 샘플 크기	500	N/A	해당 사항 없음	N/A
랜덤 샘플링을 위한 최대 샘플 크기	200,000	N/A	해당 사항 없음	N/A
최대 레이블 수	2 범주: 2 3 이상 범주, 숫자, 시계열: 해당 사항 없음	1000	1000	N/A

*문서 데이터는 현재 문서 데이터를 수용하는 즉시 사용 가능 모델에서만 지원됩니다. 문서 데이터로는 사용자 지정 모델을 만들 수 없습니다.

또한 다음과 같은 제한 사항이 있습니다.

Amazon S3 버킷에서 데이터를 가져올 때 Amazon S3 버킷 이름에 . 기호가 포함되어 있지 않아야 합니다. 버킷 이름에 . 기호가 포함된 경우 Canvas로 데이터를 가져오려고 할 때 오류가 발생할 수 있습니다.
테이블 형식 데이터의 경우 Canvas는 로컬 업로드와 Amazon S3 가져오기 모두에 대해.csv, .parquet, .parq, .pqt 이외의 확장자를 가진 파일을 선택할 수 없습니다. CSV 파일에는 일반적인 구분 기호 또는 사용자 지정 구분 기호를 사용할 수 있으며 새 행을 나타내는 경우를 제외하고 줄 바꿈 문자가 없어야 합니다.
Parquet 파일을 사용하는 테이블 형식 데이터의 경우 다음 사항에 유의하세요.
- Parquet 파일에는 지도 및 목록과 같은 복잡한 유형이 포함될 수 없습니다.
- Parquet 파일의 열 이름에는 공백이 있어서는 안 됩니다.
- 압축을 사용하는 경우 Parquet 파일은 gzip 또는 snappy 압축 유형을 사용해야 합니다. 이전 압축 유형에 대한 자세한 내용은 gzip 설명서 및 snappy 설명서를 참조하세요.
이미지 데이터의 경우 레이블이 지정되지 않은 이미지가 있으면 모델을 빌드하기 전에 이미지에 레이블을 지정해야 합니다. Canvas 애플리케이션 내에서 이미지에 레이블을 할당하는 방법에 대한 자세한 내용은 이미지 데이터세트 편집을 참조하세요.
자동 데이터세트 업데이트 또는 자동 배치 예측 구성을 설정하는 경우 Canvas 애플리케이션에서 총 20개의 구성만 생성할 수 있습니다. 자세한 내용은 자동화를 관리하는 방법 섹션을 참조하세요.

데이터세트를 가져온 후에는 언제든지 데이터세트 페이지에서 데이터세트를 볼 수 있습니다.

테이블 형식 데이터 가져오기

테이블 형식 데이터세트를 사용하여 범주형, 수치형, 시계열 예측, 텍스트 예측 모델을 구축할 수 있습니다. 이전 데이터세트 가져오기 섹션의 제한 사항 테이블을 검토하여 데이터가 테이블 형식 데이터에 대한 요구 사항을 충족하는지 확인하세요.

Canvas로 테이블 형식 데이터세트를 가져오려면 다음 절차를 따르세요.

SageMaker Canvas 애플리케이션을 엽니다.
왼쪽 탐색 창에서 데이터 세트를 선택합니다.
데이터 가져오기를 선택합니다.
드롭다운 메뉴에서 테이블 형식을 선택합니다.
팝업 대화 상자의 데이터 세트 이름 필드에 데이터 세트 이름을 입력하고 생성을 선택합니다.
테이블 형식 데이터세트 만들기 페이지에서 데이터 소스 드롭다운 메뉴를 엽니다.
데이터 원본을 선택합니다.
- 컴퓨터에서 파일을 업로드하려면 로컬 업로드를 선택합니다.
- Amazon S3 버킷 또는 Snowflake 데이터베이스와 같은 다른 소스에서 데이터를 가져오려면 검색 데이터 원본 표시줄에서 데이터 원본을 검색하세요. 그런 다음 원하는 데이터 원본의 타일을 선택합니다.
  
  참고
  활성 연결이 있는 타일에서만 데이터를 가져올 수 있습니다. 사용할 수 없는 데이터 원본에 연결하려면 관리자에게 문의하세요. 관리자인 경우 데이터 원본에 연결을 참조하세요.
다음 스크린샷은 데이터 원본 드롭다운 메뉴를 보여줍니다.
(선택 사항) Amazon Redshift 또는 Snowflake 데이터베이스에 처음으로 연결하는 경우 연결을 생성하기 위한 대화 상자가 나타납니다. 대화 상자에 보안 인증 정보를 입력하고 연결 생성을 선택합니다. 이미 연결이 되어 있다면 연결을 선택하세요.
데이터 원본에서 가져올 파일을 선택합니다. 로컬 업로드 및 Amazon S3에서 가져오기의 경우 파일을 선택할 수 있습니다. Amazon S3의 경우, S3 엔드포인트 입력 필드에 버킷 또는 S3 액세스 포인트의 S3 URI, 별칭 또는 ARN을 직접 입력한 다음 가져올 파일을 선택할 수 있는 옵션이 있습니다. 데이터베이스 소스의 경우 왼쪽 탐색 창에서 데이터 테이블을 끌어서 놓을 수 있습니다.
(선택 사항) SQL 쿼리를 지원하는 테이블 형식 데이터 소스(예: Amazon Redshift, Amazon Athena 또는 Snowflake)의 경우 SQL에서 편집을 선택하여 가져오기 전에 SQL 쿼리를 만들 수 있습니다.

다음 스크린샷은 Amazon Athena 데이터 원본에 대한 SQL 편집 보기를 보여줍니다.
가져오기 전에 데이터를 미리 보려면 데이터세트 미리 보기를 선택합니다.
가져오기 설정에서 데이터세트 이름을 입력하거나 기본 데이터세트 이름을 사용합니다.
(선택 사항) Amazon S3에서 가져오는 데이터의 경우 고급 설정이 표시되며 다음 필드를 입력할 수 있습니다.
1. 데이터세트의 첫 번째 행을 열 이름으로 사용하려면 첫 번째 행을 헤더로 사용 옵션 토글을 켭니다. 여러 파일을 선택한 경우 이 옵션이 각 파일에 적용됩니다.
2. CSV 파일을 가져오는 경우 파일 인코딩(CSV) 드롭다운에서 데이터세트 파일의 인코딩을 선택합니다. UTF-8이 기본값입니다.
3. 구분 기호 드롭다운에서 데이터의 각 셀을 구분하는 구분 기호를 선택합니다. 기본 구분 기호는 ,입니다. 사용자 지정 구분 기호를 지정할 수도 있습니다.
4. Canvas가 전체 데이터세트에서 다중 라인 셀을 수동으로 구문 분석하도록 하려면 다중 라인 감지를 선택합니다. 기본적으로 이 옵션은 선택되지 않으며 Canvas는 데이터 샘플을 가져와 다중 라인 지원을 사용할지를 결정합니다. 하지만 Canvas는 샘플에서 다중 라인 셀을 감지하지 못할 수 있습니다. 다중 라인 셀이 있는 경우 다중 라인 감지 옵션을 선택하여 Canvas가 전체 데이터세트에서 다중 라인 셀을 확인하도록 하는 것이 좋습니다.
데이터를 가져올 준비가 되면 데이터세트 만들기를 선택합니다.

데이터 세트를 Canvas로 가져오는 동안 데이터 세트 페이지에 나열된 데이터 세트를 확인할 수 있습니다. 이 페이지에서 데이터세트 세부 정보 보기을 수행할 수 있습니다.

데이터 세트 상태가 Ready로 표시되면 Canvas가 데이터를 성공적으로 가져온 것이며 모델 구축을 진행할 수 있습니다.

Amazon Redshift 데이터베이스 또는 SaaS 커넥터와 같은 데이터 원본에 연결되어 있는 경우 해당 연결로 돌아갈 수 있습니다. Amazon Redshift와 Snowflake의 경우 다른 데이터세트를 생성하고 데이터 가져오기 페이지로 돌아가서 해당 연결의 데이터 원본 타일을 선택하여 다른 연결을 추가할 수 있습니다. 드롭다운 메뉴에서 이전 연결을 열거나 연결 추가를 선택할 수 있습니다.

참고

SaaS 플랫폼의 경우 데이터 원본당 하나의 연결만 가질 수 있습니다.

이미지 데이터 가져오기

이미지 데이터세트를 사용하면 이미지의 레이블을 예측하는 단일 레이블 이미지 예측 사용자 지정 모델을 만들 수 있습니다. 이전 데이터세트 가져오기 섹션의 제한 사항을 검토하여 이미지 데이터세트가 이미지 데이터에 대한 요구사항을 충족하는지 확인하세요.

참고

로컬 파일 업로드 또는 Amazon S3 버킷에서만 이미지 데이터세트를 가져올 수 있습니다. 또한 이미지 데이터세트의 경우 라벨당 최소 25개의 이미지가 있어야 합니다.

다음 절차에 따라 Canvas로 이미지 데이터세트를 가져옵니다.

SageMaker Canvas 애플리케이션을 엽니다.
왼쪽 탐색 창에서 데이터 세트를 선택합니다.
데이터 가져오기를 선택합니다.
드롭다운 메뉴에서 이미지를 선택합니다.
팝업 대화 상자의 데이터 세트 이름 필드에 데이터 세트 이름을 입력하고 생성을 선택합니다.
가져오기 페이지에서 데이터 원본 드롭다운 메뉴를 엽니다.
데이터 원본을 선택합니다. 컴퓨터에서 파일을 업로드하려면 로컬 업로드를 선택합니다. Amazon S3에서 파일을 가져오려면 Amazon S3를 선택합니다.
컴퓨터 또는 Amazon S3 버킷에서 업로드하려는 이미지 또는 이미지 폴더를 선택합니다.
데이터를 가져올 준비가 되면 데이터 가져오기를 선택합니다.

데이터 세트 상태가 Ready로 표시되면 Canvas가 데이터를 성공적으로 가져온 것이며 모델 구축을 진행할 수 있습니다.

모델을 만들 때 이미지 데이터세트를 편집하고, 라벨을 할당 또는 재할당하고, 이미지를 추가하거나, 데이터세트에서 이미지를 삭제할 수 있습니다. 이미지 데이터세트를 편집하는 방법에 대한 자세한 내용은 이미지 데이터세트 편집을 참조하세요.

문서 데이터 가져오기

비용 분석, 신원 증명서 분석, 문서 분석 및 문서 쿼리를 위한 즉시 사용 가능 모델은 문서 데이터를 지원합니다. 문서 데이터로는 사용자 지정 모델을 구축할 수 없습니다.

문서 데이터세트를 사용하여 비용 분석, 신원 증명서 분석, 문서 분석, 문서 쿼리에 대해 즉시 사용 가능 모델로 예측을 생성할 수 있습니다. 데이터세트 생성 섹션의 제한 테이블을 검토하여 문서 데이터세트가 문서 데이터에 대한 요구 사항을 충족하는지 확인하세요.

참고

로컬 파일 업로드 또는 Amazon S3 버킷에서만 문서 데이터세트를 가져올 수 있습니다.

Canvas에 문서 데이터세트를 가져오려면 다음 절차를 따르세요.

SageMaker Canvas 애플리케이션을 엽니다.
왼쪽 탐색 창에서 데이터 세트를 선택합니다.
데이터 가져오기를 선택합니다.
드롭다운 메뉴에서 문서를 선택합니다.
팝업 대화 상자의 데이터 세트 이름 필드에 데이터 세트 이름을 입력하고 생성을 선택합니다.
가져오기 페이지에서 데이터 원본 드롭다운 메뉴를 엽니다.
데이터 원본을 선택합니다. 컴퓨터에서 파일을 업로드하려면 로컬 업로드를 선택합니다. Amazon S3에서 파일을 가져오려면 Amazon S3를 선택합니다.
컴퓨터 또는 Amazon S3 버킷에서 업로드하려는 문서 파일을 선택합니다.
데이터를 가져올 준비가 되면 데이터 가져오기를 선택합니다.

데이터세트 상태가 Ready로 표시되면 Canvas가 데이터를 성공적으로 가져온 것입니다.

데이터세트 페이지에서 데이터세트를 선택하여 미리 볼 수 있으며, 데이터세트의 처음 100개 문서가 표시됩니다.

데이터세트 세부 정보 보기

각 데이터세트에 대해 데이터세트의 모든 파일, 데이터세트의 버전 기록, 데이터세트의 자동 업데이트 구성을 볼 수 있습니다. 데이터세트 페이지에서 데이터세트 업데이트또는 사용자 지정 모델 작동 방식등의 작업을 시작할 수도 있습니다.

데이터세트의 세부정보를 보려면 다음 작업을 수행합니다.

SageMaker Canvas 애플리케이션을 엽니다.
왼쪽 탐색 창에서 데이터 세트를 선택합니다.
데이터세트 목록에서 데이터세트를 선택합니다.

데이터 탭에서 데이터 미리 보기를 볼 수 있습니다. 데이터세트 세부 정보를 선택하면 데이터세트에 포함된 모든 파일을 볼 수 있습니다. 파일을 선택하면 미리 보기에서 해당 파일의 데이터만 볼 수 있습니다. 이미지 데이터세트의 경우 미리 보기에는 데이터세트의 처음 100개 이미지만 표시됩니다.

버전 기록 탭에서 데이터세트의 모든 버전 목록을 볼 수 있습니다. 데이터세트를 업데이트할 때마다 새 버전이 만들어집니다. 데이터세트 업데이트에 대한 자세한 내용은 데이터세트 업데이트을 참조하세요. 다음 스크린샷은 Canvas 애플리케이션의 버전 기록 탭을 보여줍니다.

자동 업데이트 탭에서 데이터세트 자동 업데이트를 활성화하고 데이터세트를 정기적으로 업데이트하도록 구성을 설정할 수 있습니다. 데이터세트에 대한 자동 업데이트를 설정하는 방법에 대한 자세한 내용은 데이터세트 자동 업데이트 구성을 참조하세요. 다음 스크린샷은 자동 업데이트가 켜진 자동 업데이트 탭과 데이터세트에서 수행된 자동 업데이트 작업 목록을 보여줍니다.

활성화된 자동 업데이트 및 자동 업데이트 작업 목록을 보여 주는 데이터세트의 자동 업데이트 탭

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

데이터 가져오기

데이터세트 업데이트