데이터 가져오기 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 가져오기

Amazon SageMaker Canvas는 테이블, 이미지 및 문서 데이터 가져오기를 지원합니다. 로컬 시스템, Amazon S3 및 Amazon Redshift와 같은 Amazon 서비스 및 외부 데이터 소스에서 데이터 세트를 가져올 수 있습니다. Amazon S3에서 데이터 세트를 가져올 때 모든 크기의 데이터 세트를 가져올 수 있습니다. 가져온 데이터 세트를 사용하여 모델을 구축하고 다른 데이터 세트를 예측하세요.

사용자 지정 모델을 구축할 수 있는 각 사용 사례는 서로 다른 유형의 입력을 수용합니다. 예를 들어 단일 레이블 이미지 분류 모델을 구축하려면 이미지 데이터를 가져와야 합니다. 다양한 모델 유형과 해당 유형이 허용하는 데이터에 대한 자세한 내용은 사용자 지정 모델 작동 방식을 참조하세요. Canvas에서 다음 데이터 유형에 SageMaker 대한 데이터를 가져오고 사용자 지정 모델을 빌드할 수 있습니다.

  • 테이블 형식(CSV, Parquet 또는 테이블)

    • 범주형 - 범주형 데이터를 사용하여 2 및 3 이상의 범주형 예측을 위한 사용자 지정 범주형 예측 모델을 구축합니다.

    • 수치 - 수치 데이터를 사용하여 사용자 지정 수치 예측 모델을 구축합니다.

    • 텍스트 - 텍스트 데이터를 사용하여 사용자 지정 다중 범주 텍스트 예측 모델을 구축합니다.

    • 시계열 – 시계열 데이터를 사용하여 사용자 지정 시계열 예측 모형을 구축합니다.

  • 이미지(JPG 또는 PNG) - 이미지 데이터를 사용하여 사용자 지정 단일 레이블 이미지 예측 모델을 빌드합니다.

  • 문서(PDF, JPG, PNG, TIFF) - 문서 데이터는 SageMaker Canvas Ready-to-use 모델에서만 지원됩니다. 문서 데이터를 예측할 수 있는 모델에 대한 자세한 Ready-to-use 내용은 섹션을 참조하세요Ready-to-use 모델.

다음 데이터 원본에서 Canvas로 데이터를 가져올 수 있습니다.

  • 컴퓨터의 로컬 파일

  • Amazon S3 버킷

  • Amazon Redshift 프로비저닝 클러스터(Amazon Redshift Serverless 제외)

  • AWS Glue Data Catalog Amazon Athena를 통해

  • Amazon Aurora

  • Amazon Relational Database Service(AmazonRDS)

  • Salesforce Data Cloud

  • Snowflake

  • JDBC 커넥터를 통한 Databricks, , SQLServer MariaDB 및 기타 인기 있는 데이터베이스

  • 다음과 같은 40개 이상의 외부 SaaS 플랫폼 SAP OData

가져올 수 있는 데이터 소스의 전체 목록은 다음 표를 참조하세요.

소스 유형 지원되는 데이터 유형

로컬 파일 업로드

로컬

테이블 형식, 이미지, 문서

Amazon Aurora

Amazon 내부

테이블 형식

Amazon S3 버킷

Amazon 내부

테이블 형식, 이미지, 문서

Amazon RDS

Amazon 내부

테이블 형식

Amazon Redshift 프로비저닝 클러스터(Redshift Serverless 제외)

Amazon 내부

테이블 형식

AWS Glue Data Catalog (Amazon Athena 통해)

Amazon 내부

테이블 형식

Databricks

외부

테이블 형식

Snowflake

외부

테이블 형식

Salesforce Data Cloud

외부

테이블 형식

SQLServer

외부

테이블 형식

내SQL

외부

테이블 형식

PostgreSQL

외부

테이블 형식

MariaDB

외부

테이블 형식

Amplitude

외부 SaaS 플랫폼

테이블 형식

CircleCI

외부 SaaS 플랫폼

테이블 형식

DocuSign 모니터

외부 SaaS 플랫폼

테이블 형식

Domo

외부 SaaS 플랫폼

테이블 형식

Datadog

외부 SaaS 플랫폼

테이블 형식

Dynatrace

외부 SaaS 플랫폼

테이블 형식

Facebook 광고

외부 SaaS 플랫폼

테이블 형식

Facebook Page Insights

외부 SaaS 플랫폼

테이블 형식

Google Ads

외부 SaaS 플랫폼

테이블 형식

Google Analytics 4

외부 SaaS 플랫폼

테이블 형식

Google Search Console

외부 SaaS 플랫폼

테이블 형식

GitHub

외부 SaaS 플랫폼

테이블 형식

GitLab

외부 SaaS 플랫폼

테이블 형식

Infor Nexus

외부 SaaS 플랫폼

테이블 형식

Instagram 광고

외부 SaaS 플랫폼

테이블 형식

Jira Cloud

외부 SaaS 플랫폼

테이블 형식

LinkedIn 광고

외부 SaaS 플랫폼

테이블 형식

LinkedIn 광고

외부 SaaS 플랫폼

테이블 형식

Mailchimp

외부 SaaS 플랫폼

테이블 형식

Marketo

외부 SaaS 플랫폼

테이블 형식

Microsoft Teams

외부 SaaS 플랫폼

테이블 형식

Mixpanel

외부 SaaS 플랫폼

테이블 형식

Okta

외부 SaaS 플랫폼

테이블 형식

Salesforce

외부 SaaS 플랫폼

테이블 형식

Salesforce Marketing Cloud

외부 SaaS 플랫폼

테이블 형식

Salesforce Pardot

외부 SaaS 플랫폼

테이블 형식

SAP OData

외부 SaaS 플랫폼

테이블 형식

SendGrid

외부 SaaS 플랫폼

테이블 형식

ServiceNow

외부 SaaS 플랫폼

테이블 형식

Singular

외부 SaaS 플랫폼

테이블 형식

Slack

외부 SaaS 플랫폼

테이블 형식

Stripe

외부 SaaS 플랫폼

테이블 형식

Trend Micro

외부 SaaS 플랫폼

테이블 형식

Typeform

외부 SaaS 플랫폼

테이블 형식

Veeva

외부 SaaS 플랫폼

테이블 형식

Zendesk

외부 SaaS 플랫폼

테이블 형식

Zendesk Chat

외부 SaaS 플랫폼

테이블 형식

Zendesk Sell

외부 SaaS 플랫폼

테이블 형식

Zendesk Sunshine

외부 SaaS 플랫폼

테이블 형식

Zoom Meetings

외부 SaaS 플랫폼

테이블 형식

데이터를 가져오는 방법에 대한 지침 및 이미지의 최대 파일 크기 등 입력 데이터 요구 사항에 관한 정보는 데이터세트 생성을 참조하세요.

Canvas는 또한 사용자가 시작하는 데 도움이 되는 몇 가지 샘플 데이터 세트를 제공합니다. 실험할 수 있는 SageMaker에서 제공하는 샘플 데이터 세트에 대한 자세한 내용은 샘플 데이터 세트 사용을 참조하세요.

Canvas로 데이터 세트를 가져온 후 언제든지 데이터 세트를 업데이트할 수 있습니다. 수동 업데이트를 수행하거나 자동 데이터 세트 업데이트 일정을 설정할 수 있습니다. 자세한 내용은 데이터 세트 업데이트을 참조하세요.

각 데이터 세트 유형에 대한 자세한 내용은 다음 섹션을 참조하세요.

테이블 형식

외부 데이터 원본(예: Snowflake 데이터베이스 또는 SaaS 플랫폼)에서 데이터를 가져오려면 Canvas 애플리케이션에서 데이터 원본을 인증하고 연결해야 합니다. 자세한 내용은 데이터 원본에 연결 단원을 참조하십시오.

Amazon S3에서 Canvas로 5GB보다 큰 데이터 세트를 가져오려면 Amazon Athena를 사용하여 Amazon S3에서 데이터를 쿼리하고 샘플링하여 더 빠른 샘플링을 달성할 수 있습니다.

Canvas에서 데이터 세트를 생성한 후 Data Wrangler의 데이터 준비 기능을 사용하여 데이터를 준비하고 변환할 수 있습니다. Data Wrangler를 사용하여 누락된 값을 처리하고, 기능을 변환하고, 여러 데이터 세트를 단일 데이터 세트로 조인하는 등의 작업을 수행할 수 있습니다. 자세한 내용은 데이터 준비 단원을 참조하십시오.

작은 정보

데이터가 테이블에 정렬되어 있으면 Amazon Redshift, Amazon Athena 또는 Snowflake와 같은 다양한 소스의 데이터 세트를 조인할 수 있습니다.

이미지

이미지 데이터 세트를 편집하고 레이블 할당 또는 재할당, 이미지 추가 또는 이미지 삭제와 같은 작업을 수행하는 방법에 대한 자세한 내용은 이미지 데이터 세트 편집을 참조하세요.