Amazon SageMaker 기본 제공 알고리즘 사용 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker 기본 제공 알고리즘 사용

Amazon SageMaker SageMaker는 데이터 과학자와 기계 학습 실무자가 기계 학습 모델을 빠르게 학습하고 배포하는 데 도움이 되는 기본 제공 알고리즘 제품군을 제공합니다. SageMaker를 처음 사용하는 사람에게는 특정 사용 사례에 적합한 알고리즘을 선택하는 것이 어려운 작업이 될 수 있습니다. 다음 표에서는 예제 문제 또는 사용 사례로 시작하고 해당 문제 유형에 유효한 SageMaker에서 제공하는 적절한 기본 제공 알고리즘을 찾는 방법을 보여주는 빠른 치트 시트를 제공합니다. 학습 패러다임 (감독 및 비지도) 과 중요한 데이터 도메인 (텍스트 및 이미지) 으로 구성된 추가 지침은 표 다음 섹션에 나와 있습니다.

테이블: 기본 제공 알고리즘에 사용 사례 매핑
예제 문제 및 사용 사례 학습 패러다임 또는 도메인 문제 유형 데이터 입력 형식 기본 제공 알고리즘

항목이 범주에 속하는지 예측: 이메일 스팸 필터

지도 학습

바이너리/멀티클래스 분류

테이블형

Factorization Machine 알고리즘, K-Nearest Neighbors(k-NN) 알고리즘, 선형 학습자 알고리즘, XGBoost 알고리즘

숫자/연속 값 예측: 주택 값 추정

회귀

테이블형

Factorization Machine 알고리즘, K-Nearest Neighbors(k-NN) 알고리즘, 선형 학습자 알고리즘, XGBoost 알고리즘

행동에 대한 과거 데이터를 기반으로 향후 행동을 예측합니다. 이전 판매 데이터를 기반으로 신제품에 대한 매출을 예측합니다.

시계열 예측

테이블형

DeepAR Forecasting알고리즘

고차원 객체의 데이터 포함 개선: 중복 지원 티켓을 식별하거나 티켓에서 텍스트의 유사성을 기반으로 올바른 라우팅 찾기

임베딩: 고차원 객체를 저차원 공간으로 변환합니다. 테이블형 Object2Vec 알고리즘

레이블/대상 변수와 약한 관계가 있는 데이터세트에서 해당 열을 삭제합니다. 즉, 주행 거리를 예측할 때 자동차의 색상입니다.

감독되지 않은 학습

기능 엔지니어링: 차원성 감소

테이블형

Principal Component Analysis(PCA) 알고리즘

애플리케이션에서 비정상적인 동작 감지: IoT 센서가 비정상적인 판독 값을 보내는 시점

이상 탐지

테이블형

Random Cut Forest(RCF) 알고리즘

의심스러운 사용자로부터 애플리케이션 보호: 서비스에 액세스하는 IP 주소가 나쁜 작업자의 것일 수 있는지 감지

IP 이상 탐지

테이블형

IP Insights

유사한 객체/데이터를 함께 그룹화: 거래 내역에서 고비용, 중간, 저비용 고객을 찾습니다.

클러스터링 또는 그룹화

테이블형

k-means 알고리즘

문서 세트를 주제로 구성 (미리 알려지지 않음): 문서에 사용된 용어에 따라 문서를 의료 범주에 속하는 것으로 태그를 지정합니다.

주제 모델링

Text

Latent Dirichlet Allocation(LDA) 알고리즘, Neural Topic Model(NTM) 알고리즘

코퍼스의 문서에 미리 정의된 범주 할당: 라이브러리의 책을 학문적 분야로 분류합니다.

텍스트 분석

텍스트 분류

Text

BlazingText 알고리즘

텍스트를 한 언어에서 다른 언어로 변환: 스페인어에서 영어로

자동 변환

알고리듬
Text

Sequence-to-Sequence 알고리즘

긴 텍스트 코퍼스 요약: 연구 논문의 초록

텍스트 요약

Text

Sequence-to-Sequence 알고리즘

오디오 파일을 텍스트로 변환: 추가 분석을 위해 콜 센터 대화 기록

텍스트 음성 변환

Text

Sequence-to-Sequence 알고리즘

이미지 내용에 따라 이미지 레이블/태그 지정: 이미지의 성인용 콘텐츠에 대한 경고

이미지 처리

이미지 및 다중 라벨 분류

이미지

Image Classification 알고리즘

이미지에서 사람과 물체 감지: 경찰은 실종자에 대한 대형 사진 갤러리를 검토합니다.

객체 감지 및 분류

이미지

Object Detection 알고리즘

범주를 사용하여 이미지의 모든 픽셀에 개별적으로 태그 지정: 자율 주행 자동차는 자신의 방식으로 물체를 식별할 수 있도록 준비

컴퓨터 비전

이미지

의미 체계 분할 알고리즘

Docker 레지스트리 경로, 데이터 형식, 권장된 Amazon EC2 인스턴스 유형 및 SageMaker에서 제공하는 모든 기본 제공 알고리즘에 공통된 CloudWatch 로그에 대한 중요한 정보는 단원을 참조하십시오.기본 제공 알고리즘에 대한 공통 정보.

다음 섹션에서는 해당 알고리즘이 속한 감독 및 비지도 학습 패러다임으로 그룹화된 Amazon SageMaker 내장 알고리즘에 대한 추가 지침을 제공합니다. 이러한 학습 패러다임 및 관련 문제 유형에 대한 설명은 단원을 참조하십시오.알고리즘 선택. 또한 두 가지 중요한 기계 학습 영역인 텍스트 분석 및 이미지 처리를 처리하는 데 사용할 수 있는 SageMaker 내장 알고리즘에 대한 섹션도 제공됩니다.

지도 학습

Amazon SageMaker SageMaker는 분류 또는 회귀 문제에 사용할 수 있는 몇 가지 기본 제공 범용 알고리즘을 제공합니다.

  • 선형 학습자 알고리즘회귀 분석을 위한 선형 함수 또는 분류를 위한 선형 분계점 함수를 학습합니다.

  • Factorization Machine 알고리즘고차원 희소 데이터 세트 내 특징 간 상호 작용을 경제적으로 캡처하도록 설계된 선형 모델의 확장입니다.

  • XGBoost 알고리즘더욱 단순하고 약한 모델 세트의 추정치의 앙상블을 결합한 그라디언트 부스팅된 트리 알고리즘의 구현.

  • K-Nearest Neighbors(k-NN) 알고리즘—k개의 가장 가까운 레이블이 지정된 점을 사용하여 분류를 위해 새 데이터 점에 레이블을 할당하거나 회귀 분석에 대해 k 가장 가까운 점의 평균에서 예측된 목표값을 지정하는 비모수 방법입니다.

또한 Amazon SageMaker SageMaker는 기능 엔지니어링 및 시계열 데이터에서 예측하는 동안 보다 전문적인 작업에 사용되는 몇 가지 기본 제공 지도 학습 알고리즘을 제공합니다.

  • Object2Vec 알고리즘— 기능 엔지니어링에 사용되는 새로운 고도로 사용자 정의 가능한 다목적 알고리즘 고차원 객체의 저차원 밀도 임베딩을 학습할 수 있어 다운스트림 모델의 교육 효율성을 향상시키는 기능을 생산할 수 있습니다. 이 알고리즘은 감독되는 알고리즘이지만 교육을 위해 레이블이 지정된 데이터가 필요하므로 명시적인 인간 주석 없이 데이터의 자연 클러스터링에서 관계 레이블을 순전히 얻을 수 있는 많은 시나리오가 있습니다.

  • DeepAR Forecasting알고리즘반복 신경망 (RNN) 을 사용하여 스칼라 (1차원) 시계열을 예상하는 지도 학습 알고리즘

감독되지 않은 학습

Amazon SageMaker SageMaker는 클러스터링, 차원 감소, 패턴 인식 및 예외 항목 감지와 같은 다양한 비지도 학습 작업에 사용할 수 있는 몇 가지 기본 제공 알고리즘을 제공합니다.

  • Principal Component Analysis(PCA) 알고리즘—처음 몇 가지 주성분에 데이터 점을 투영하여 데이터 세트 내의 차원 (특징의 수) 을 줄입니다. 목표는 가능한 한 많은 정보 또는 변동을 유지하는 것입니다. 수학자의 경우 주성분은 데이터의 공분산 행렬의 고유 벡터입니다.

  • k-means 알고리즘데이터 내 별도의 그룹화를 찾습니다. 이 경우 그룹의 멤버는 가급적 다른 멤버와 유사하고 다른 그룹의 멤버와는 가급적 다릅니다.

  • IP Insights—IPv4 주소에 대한 사용 패턴을 학습합니다. IPv4 주소와 여러 엔터티(예: 사용자 ID 또는 계정 번호) 간 연결을 캡처하도록 설계되어 있습니다.

  • Random Cut Forest(RCF) 알고리즘—구조화 또는 패턴화된 데이터로부터 벗어난 데이터 세트 내에서 변칙적인 데이터 요소를 감지합니다.

텍스트 분석

SageMaker는 자연어 처리, 문서 분류 또는 요약, 주제 모델링 또는 분류, 언어 전사 또는 번역에 사용되는 텍스트 문서의 분석에 맞는 알고리즘을 제공합니다.

  • BlazingText 알고리즘— 대규모 데이터 세트로 쉽게 확장할 수 있는 Word2vec 및 텍스트 분류 알고리즘을 최적화해 구현합니다. 이는 많은 다운스트림 자연 언어 처리 (NLP) 작업에 유용합니다.

  • Sequence-to-Sequence 알고리즘—신경 기계 번역에 일반적으로 사용되는 감독 알고리즘입니다.

  • Latent Dirichlet Allocation(LDA) 알고리즘—여러 문서에서 주제를 결정하는 데 적합한 알고리즘입니다. 비지도 알고리즘으로 훈련 중 답이 포함된 예제 데이터를 사용하지 않습니다.

  • Neural Topic Model(NTM) 알고리즘신경망 접근 방식을 사용하여 여러 문서에서 주제를 결정하는 또 다른 비지도 기법입니다.

이미지 처리

SageMaker는 또한 이미지 분류, 물체 감지 및 컴퓨터 비전에 사용되는 이미지 처리 알고리즘을 제공합니다.

  • Image Classification 알고리즘—답이 포함된 예제 데이터를 사용합니다 (감독되는 알고리즘). 이 알고리즘을 사용하여 이미지를 분류합니다.

  • 의미 체계 분할 알고리즘—컴퓨터 비전 응용 분야를 개발하는 데 세분화된 픽셀 수준의 접근 방식을 제공합니다.

  • Object Detection 알고리즘—단일 신경망을 사용하여 이미지의 객체를 감지 및 분류합니다. 이 알고리즘은 입력으로 이미지를 가져와 이미지 장면 내에서 객체의 모든 인스턴스를 식별하는 지도 학습 알고리즘입니다.