Amazon 사용 SageMaker 내장 알고리즘 또는 사전 학습된 모델 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon 사용 SageMaker 내장 알고리즘 또는 사전 학습된 모델

아마존 SageMaker 는 데이터 과학자와 기계 학습 실무자가 기계 학습 모델을 빠르게 교육하고 배포하는 데 도움이 되는 다양한 내장 알고리즘, 사전 학습된 모델 및 사전 구축된 솔루션 템플릿을 제공합니다. 처음 접하시는 분들을 위해 SageMaker특정 사용 사례에 적합한 알고리즘을 선택하는 것은 어려운 작업일 수 있습니다. 다음 표에는 예제 문제 또는 사용 사례로 시작하여 에서 제공하는 적절한 내장 알고리즘을 찾는 방법을 보여주는 간단한 치트 시트가 나와 있습니다. SageMaker 해당 문제 유형에 유효합니다. 학습 패러다임 (감독 및 비지도) 과 중요한 데이터 영역 (텍스트 및 이미지) 으로 구성된 추가 지침은 표 다음 섹션에 나와 있습니다.

테이블: 사용 사례를 내장 알고리즘에 매핑
예제 문제 및 사용 사례 학습 패러다임 또는 도메인 문제 Type 데이터 입력 형식 기본 제공 알고리즘

다음은 에서 제공하는 사전 학습된 모델 및 사전 구축된 솔루션 템플릿으로 해결할 수 있는 15가지 문제 유형 중 몇 가지 예입니다. SageMaker JumpStart:

질문 응답: 주어진 질문에 대한 답을 출력하는 챗봇입니다.

텍스트 분석: 금융과 같은 산업 분야별 모델의 텍스트를 분석합니다.

사전 학습된 모델 및 사전 구축된 솔루션 템플릿

이미지 분류

테이블 형식 분류

테이블 형식 회귀

텍스트 분류

객체 감지

텍스트 임베딩

질문 답변

문장 쌍 분류

이미지 임베딩

명명된 엔터티 인식

인스턴스 세분화

텍스트 생성

텍스트 요약

의미 체계 분할

기계 번역

이미지, 텍스트, 표 형식

모바일넷, 욜로, 패스터 R-CNN, 버트, 라이트GBM 및 CatBoost

사용 가능한 사전 학습된 모델 목록은 다음을 참조하십시오.JumpStart 모델.

를 사용할 수 있는 사전 구축된 솔루션 템플릿의 목록은 단원을 참조하십시오.JumpStart 솔루션.

항목이 범주에 속하는지 예측: 이메일 스팸 필터

지도 학습

바이너리/멀티 클래스 분류

표 형식

AutoGluon-테이블 형식, CatBoost, Factorization Machine 알고리즘, K-Nearest Neighbors(k-NN) 알고리즘, 라이트 GBM, 선형 학습자 알고리즘, TabTransformer, XGBoost 알고리즘

수치/연속형 값 예측: 주택 가치 추정

회귀

표 형식

AutoGluon-테이블 형식, CatBoost, Factorization Machine 알고리즘, K-Nearest Neighbors(k-NN) 알고리즘, 라이트 GBM, 선형 학습자 알고리즘, TabTransformer, XGBoost 알고리즘

행동에 대한 과거 데이터를 기반으로 future 행동 예측: 이전 판매 데이터를 기반으로 신제품 판매를 예측합니다.

시계열 예측

표 형식

DeepAR Forecasting알고리즘

고차원 객체의 데이터 임베딩 개선: 중복 지원 티켓을 식별하거나 티켓 내 텍스트의 유사성을 기반으로 올바른 경로를 찾으세요.

임베딩: 고차원 객체를 저차원 공간으로 변환합니다. 표 형식 Object2Vec 알고리즘

레이블/대상 변수와의 관계가 약한 데이터셋에서 해당 열을 삭제하십시오. 즉, 주행 거리를 예측할 때 차량의 색상입니다.

비지도 학습

기능 엔지니어링: 치수 감소

표 형식

Principal Component Analysis(PCA) 알고리즘

애플리케이션 내 이상 동작 감지: IoT 센서가 비정상 판독값을 전송하는 시점을 감지합니다.

이상 탐지

표 형식

Random Cut Forest(RCF) 알고리즘

의심스러운 사용자로부터 애플리케이션 보호: 서비스에 접근하는 IP 주소가 잘못된 사용자의 주소인지 여부를 감지합니다.

IP 이상 탐지

표 형식

IP Insights

유사한 객체/데이터를 함께 그룹화: 거래 내역에서 지출이 많은 고객, 중간 고객, 저비용 고객 찾기

클러스터링 또는 그룹화

표 형식

k-means 알고리즘

문서 세트를 주제로 구성 (미리 알 수 없음): 문서에 사용된 용어를 기반으로 문서에 의료 범주에 속하는 것으로 태그를 지정합니다.

주제 모델링

Text

Latent Dirichlet Allocation(LDA) 알고리즘, Neural Topic Model(NTM) 알고리즘

코퍼스 내 문서에 사전 정의된 범주 지정: 도서관에 있는 책을 학문 분야로 분류

텍스트 분석

텍스트 분류

Text

BlazingText 알고리듬

텍스트를 한 언어에서 다른 언어로 변환: 스페인어를 영어로

기계 번역

알고리듬
Text

Sequence-to-Sequence 알고리즘

긴 텍스트 코퍼스 요약: 연구 paper 초록

텍스트 요약

Text

Sequence-to-Sequence 알고리즘

오디오 파일을 텍스트로 변환: 추가 분석을 위해 콜센터 대화 내용 변환

Speech-to-text

Text

Sequence-to-Sequence 알고리즘

이미지 내용을 기반으로 이미지에 레이블/태그 지정: 이미지의 성인용 콘텐츠에 대한 알림

이미지 처리

이미지 및 다중 레이블 분류

이미지

이미지 분류 - MXNet

전이 학습을 사용하여 영상에서 무언가를 분류합니다.

이미지 분류 이미지

이미지 분류 - TensorFlow

이미지에서 사람과 물체 감지: 경찰이 대형 사진 갤러리에서 실종자를 검토합니다.

물체 감지 및 분류

이미지

객체 감지

이미지의 모든 픽셀에 카테고리를 개별적으로 태그 지정: 자율주행 자동차는 방해가 되는 물체를 식별할 준비를 합니다.

컴퓨터 비전

이미지

의미 체계 분할 알고리즘

Docker 레지스트리 경로, 데이터 형식, 권장 Amazon EC2 인스턴스 유형 및 CloudWatch 에서 제공하는 모든 내장 알고리즘에 공통되는 로그 SageMaker, 참조:내장 알고리즘에 대한 일반 정보.

다음 단원에서 Amazon 관련 추가 지침을 제공합니다. SageMaker 내장 알고리즘은 해당 알고리즘이 속한 지도 학습 패러다임과 비지도 학습 패러다임별로 그룹화됩니다. 이러한 학습 패러다임 및 관련 문제 유형에 대한 설명은 을 참조하십시오.알고리즘 선택. 다음에 대한 섹션도 제공됩니다. SageMaker 두 가지 중요한 기계 학습 영역, 즉 텍스트 분석과 이미지 처리를 처리하는 데 사용할 수 있는 내장 알고리즘

사전 학습된 모델 및 솔루션 템플릿

SageMaker JumpStart 다양한 사전 학습된 모델, 사전 구축된 솔루션 템플릿 및 자주 사용되는 문제 유형에 대한 예제를 제공합니다. SageMaker SDK뿐만 아니라 스튜디오. 이러한 모델, 솔루션 및 에서 제공하는 예제 노트북에 대한 자세한 내용은 을 참조하십시오. SageMaker JumpStart, 참조:SageMaker JumpStart.

지도 학습

아마존 SageMaker 는 분류 또는 회귀 문제에 사용할 수 있는 여러 가지 내장형 범용 알고리즘을 제공합니다.

  • AutoGluon-테이블 형식—모델을 조합하고 여러 레이어로 스태킹하여 성공하는 오픈 소스 AutoML 프레임워크입니다.

  • CatBoost—범주형 특징을 처리하기 위한 혁신적인 알고리즘과 순서가 지정된 부스팅을 도입한 그래디언트 부스트 트리 알고리즘의 구현입니다.

  • Factorization Machine 알고리즘—고차원 희소 데이터 세트 내에서 특징 간의 상호 작용을 경제적으로 캡처하도록 설계된 선형 모델의 확장입니다.

  • K-Nearest Neighbors(k-NN) 알고리즘— 가장 가까운 레이블이 지정된 k개의 점을 사용하여 분류할 새 데이터 요소에 레이블을 할당하거나 회귀 분석을 위해 가장 가까운 k개 점의 평균에서 예측된 목표값을 지정하는 비모수 방법입니다.

  • 라이트 GBM—효율성 및 확장성 향상을 위한 두 가지 새로운 기술을 추가하는 그래디언트 부스티드 트리 알고리즘 구현: 그래디언트 기반 단면 샘플링 (GOSS) 및 독점 기능 번들링 (EFB).

  • 선형 학습자 알고리즘—회귀 분석을 위한 선형 함수 또는 분류를 위한 선형 임계값 함수를 학습합니다.

  • TabTransformer—새로운 딥테이블 형식 데이터 모델링 아키텍처를 기반으로 구축되었습니다. self-attention-based트랜스포머.

  • XGBoost 알고리즘—더 단순하고 약한 모델 세트의 추정치 집합을 결합한 그래디언트 부스티드 트리 알고리즘의 구현입니다.

아마존 SageMaker 또한 기능 엔지니어링과 시계열 데이터를 통한 예측 중에 보다 특화된 작업에 사용되는 여러 가지 내장 지도 학습 알고리즘을 제공합니다.

  • Object2Vec 알고리즘—기능 엔지니어링에 사용되는 고도로 사용자 지정이 가능한 새로운 다목적 알고리즘. 고차원 객체의 저차원 고밀도 임베딩을 학습하여 다운스트림 모델의 학습 효율성을 향상시키는 특징을 생성할 수 있습니다. 이 알고리즘은 감독 알고리즘이지만 학습에 레이블이 지정된 데이터가 필요하기 때문에 사람의 명시적인 주석 없이 데이터의 자연스러운 클러스터링에서만 관계 레이블을 얻을 수 있는 시나리오가 많이 있습니다.

  • DeepAR Forecasting알고리즘—순환 신경망 (RNN) 을 사용하여 스칼라 (1차원) 시계열을 예측하는 지도 학습 알고리즘.

비지도 학습

아마존 SageMaker 클러스터링, 차원 축소, 패턴 인식 및 이상 감지와 같은 다양한 비지도 학습 작업에 사용할 수 있는 여러 가지 내장 알고리즘을 제공합니다.

  • Principal Component Analysis(PCA) 알고리즘—처음 몇 개의 주요 구성 요소에 데이터 요소를 투영하여 데이터 세트 내의 차원 (특징 수) 을 줄입니다. 목표는 최대한 많은 정보 또는 변형을 유지하는 것입니다. 수학자의 경우 주성분은 데이터 공분산 행렬의 고유 벡터입니다.

  • k-means 알고리즘—그룹의 멤버가 다른 그룹의 멤버와 최대한 유사하고 다른 그룹의 멤버와 최대한 다른 불연속 그룹을 찾습니다.

  • IP Insights—IPv4 주소의 사용 패턴을 학습합니다. IPv4 주소와 여러 엔터티(예: 사용자 ID 또는 계정 번호) 간 연결을 캡처하도록 설계되어 있습니다.

  • Random Cut Forest(RCF) 알고리즘—제대로 구조화되거나 패턴화된 데이터와 다른 데이터 세트 내에서 비정상적인 데이터 요소를 탐지합니다.

텍스트 분석

SageMaker 자연어 처리, 문서 분류 또는 요약, 주제 모델링 또는 분류, 언어 전사 또는 번역에 사용되는 텍스트 문서 분석에 적합한 알고리즘을 제공합니다.

  • BlazingText 알고리듬—대규모 데이터 세트로 쉽게 확장할 수 있는 Word2Vec 및 텍스트 분류 알고리즘의 고도로 최적화된 구현입니다. 많은 다운스트림 자연어 처리 (NLP) 작업에 유용합니다.

  • Sequence-to-Sequence 알고리즘—인공신경망 기계 번역에 일반적으로 사용되는 감독 알고리즘입니다.

  • Latent Dirichlet Allocation(LDA) 알고리즘—문서 집합의 주제를 결정하는 데 적합한 알고리즘입니다. 비지도 알고리즘으로 훈련 중 답이 포함된 예제 데이터를 사용하지 않습니다.

  • Neural Topic Model(NTM) 알고리즘—신경망 접근 방식을 사용하여 일련의 문서에서 주제를 결정하는 또 다른 비지도 기법.

이미지 처리

SageMaker 또한 이미지 분류, 객체 감지 및 컴퓨터 비전에 사용되는 이미지 처리 알고리즘을 제공합니다.

  • 이미지 분류 - MXNet—예제 데이터를 답변과 함께 사용합니다 (감독 알고리즘). 이 알고리즘을 사용하여 이미지를 분류합니다.

  • 이미지 분류 - TensorFlow—사전 훈련 사용 TensorFlow 특정 작업에 맞게 미세 조정하는 허브 모델 (감독 알고리즘). 이 알고리즘을 사용하여 이미지를 분류합니다.

  • 의미 체계 분할 알고리즘—컴퓨터 비전 애플리케이션 개발을 위한 정교한 픽셀 수준의 접근 방식을 제공합니다.

  • 객체 감지—단일 심층 신경망을 사용하여 영상의 객체를 감지하고 분류합니다. 이 알고리즘은 입력으로 이미지를 가져와 이미지 장면 내에서 객체의 모든 인스턴스를 식별하는 지도 학습 알고리즘입니다.