JumpStart 모델 및 솔루션 템플릿 지도 학습 알고리즘 비지도 학습 텍스트 분석 이미지 프로세싱

Amazon SageMaker 기본 제공 알고리즘 또는 사전 훈련된 모델 사용

Amazon SageMaker는 기본 제공 알고리즘, 사전 훈련된 모델, 사전 구축된 솔루션 템플릿 제품군을 제공하여 데이터 사이언티스트와 기계 학습 실무자가 기계 학습 모델을 빠르게 훈련 및 배포할 수 있도록 지원합니다. SageMaker를 처음 사용하는 사람에게는 특정 사용 사례에 적합한 알고리즘을 선택하는 것이 어려울 수 있습니다. 다음 테이블은 예제 문제 또는 사용 사례로 시작하여 해당 문제 유형에 적합한 SageMaker에서 제공하는 적절한 기본 제공 알고리즘을 찾는 방법을 보여주는 간단한 치트 시트를 제공합니다. 학습 패러다임(지도 및 비지도)과 중요한 데이터 도메인(텍스트 및 이미지)별로 구성된 추가 지침은 테이블 아래 섹션에 나와 있습니다.

테이블: 사용 사례를 기본 제공 알고리즘에 매핑

예제 문제 및 사용 사례	학습 패러다임 또는 도메인	문제 유형	데이터 입력 형식	기본 제공 알고리즘
다음은 SageMaker JumpStart에서 제공하는 사전 훈련된 모델 및 사전 구축된 솔루션 템플릿으로 해결할 수 있는 15가지 문제 유형 중 몇 가지 예입니다. 질문 응답: 주어진 질문에 대한 답변을 출력하는 챗봇입니다. 텍스트 분석: 금융과 같은 특정 산업 영역에 대한 모델의 텍스트를 분석합니다.	사전 훈련된 모델 및 사전 구축된 솔루션 템플릿	이미지 분류 테이블 형식 분류 테이블 형식 회귀 텍스트 분류 객체 감지 텍스트 임베딩 질문 응답 문장 쌍 분류 이미지 임베딩 개체명 인식 인스턴스 세분화 텍스트 생성 텍스트 요약 의미 체계 분할 기계 번역	이미지, 텍스트, 테이블 형식	Mobilenet, YOLO, Faster R-CNN, BERT, lightGBM, CatBoost 등의 인기 모델 사용 가능한 사전 훈련된 모델 목록은 JumpStart Models를 참조하세요. 사용 가능한 사전 구축된 솔루션 템플릿 목록은 JumpStart Solutions를 참조하세요.
항목이 범주에 속하는지 예측: 이메일 스팸 필터	지도 학습	바이너리/멀티클래스 분류	테이블 형식	AutoGluon-Tabular, CatBoost, Factorization Machine 알고리즘, K-Nearest Neighbors(k-NN) 알고리즘, LightGBM, 선형 학습자 알고리즘, TabTransformer, Amazon SageMaker AI를 사용한 XGBoost 알고리즘
숫자/연속 값 예측: 주택 가치 추정		회귀	테이블 형식	AutoGluon-Tabular, CatBoost, Factorization Machine 알고리즘, K-Nearest Neighbors(k-NN) 알고리즘, LightGBM, 선형 학습자 알고리즘, TabTransformer, Amazon SageMaker AI를 사용한 XGBoost 알고리즘
행동에 대한 과거 데이터를 기반으로 미래 행동 예측: 이전 판매 데이터를 기반으로 신제품의 판매 예측		시계열 예측	테이블 형식	SageMaker AI DeepAR 예측 알고리즘 사용
고차원 객체의 데이터 임베딩 개선: 중복된 지원 티켓을 식별하거나 티켓에 있는 텍스트의 유사성을 기반으로 올바른 경로 찾기		임베딩: 고차원 객체를 저차원 공간으로 변환	테이블 형식	Object2Vec 알고리즘
데이터세트에서 레이블/대상 변수와의 관련성이 약한 열 삭제: 마일리지를 예측할 때 차의 색상	비지도 학습	특성 추출: 차원 축소	테이블 형식	Principal Component Analysis(PCA) 알고리즘
애플리케이션 내 비정상 동작 감지: IoT 센서가 비정상 판독값을 전송하는 경우 파악		이상 탐지	테이블 형식	Random Cut Forest(RCF) 알고리즘
의심스러운 사용자로부터 애플리케이션 보호: 서비스에 액세스하는 IP 주소가 악의적인 공격자인지 탐지		IP 이상 탐지	테이블 형식	IP Insights
유사한 객체/데이터 그룹화: 거래 내역에서 지출이 많은 고객, 보통인 고객, 적은 고객 찾기		클러스터링 또는 그룹화	테이블 형식	k-means 알고리즘
문서 세트를 주제별로 정리(사전에 알려지지 않음): 문서에 사용된 용어에 따라 의료 범주에 속하는 것으로 문서에 태그 지정		주제 모델링	텍스트	Latent Dirichlet Allocation(LDA) 알고리즘, Neural Topic Model(NTM) 알고리즘
코퍼스의 문서에 사전 정의된 범주 할당: 도서관의 책을 학문 분야별로 분류	텍스트 분석	텍스트 분류	텍스트	BlazingText 알고리즘, 텍스트 분류 - TensorFlow
텍스트를 한 언어에서 다른 언어로 변환: 스페인어에서 영어로		기계 번역 알고리즘	텍스트	Sequence-to-Sequence 알고리즘
긴 텍스트 코퍼스 요약: 연구 논문 초록		텍스트 요약	텍스트	Sequence-to-Sequence 알고리즘
오디오 파일을 텍스트로 변환: 추가 분석을 위해 콜센터 대화를 텍스트로 변환		음성을 텍스트로 변환	텍스트	Sequence-to-Sequence 알고리즘
이미지 콘텐츠를 기반으로 이미지에 레이블 또는 태그 지정: 이미지 내 성인용 콘텐츠에 대한 알림	이미지 프로세싱	이미지 및 다중 레이블 분류	이미지	이미지 분류 - MXNet
전이 학습을 사용하여 이미지의 물체 분류		이미지 분류	이미지	이미지 분류 - TensorFlow
이미지 속 사람과 사물 탐지: 경찰이 실종자 수색을 위해 대규모 사진 갤러리 검토		객체 감지 및 분류	이미지	객체 감지 - MXNet, 객체 감지 - TensorFlow
이미지의 모든 픽셀에 범주를 지정하여 개별적으로 태그 지정: 객체를 식별할 준비를 하는 자율 주행 차량		컴퓨터 비전	이미지	의미 체계 분할 알고리즘

SageMaker AI에서 제공하는 모든 기본 제공 알고리즘에 공통적인 다음 항목에 대한 중요한 정보는 섹션을 참조하세요기본 제공 알고리즘의 파라미터.

Docker 레지스트리 경로
데이터 형식
권장 Amazon EC2 인스턴스 유형
CloudWatch 로그

다음 섹션에서는 Amazon SageMaker AI 기본 제공 알고리즘이 속한 지도 및 비지도 학습 패러다임별로 그룹화된 알고리즘에 대한 추가 지침을 제공합니다. 이러한 학습 패러다임 및 관련 문제 유형에 대한 설명은 알고리즘 유형 섹션을 참조하세요. 텍스트 분석 및 이미지 처리라는 두 가지 중요한 기계 학습 도메인을 해결하는 데 사용할 수 있는 SageMaker AI 기본 제공 알고리즘에 대한 섹션도 제공됩니다.

사전 훈련된 모델 및 솔루션 템플릿
지도 학습
비지도 학습
텍스트 분석
이미지 프로세싱

사전 훈련된 모델 및 솔루션 템플릿

SageMaker JumpStart는 Studio뿐만 아니라 SageMaker SDK를 사용하는 널리 사용되는 문제 유형에 대해 다양한 사전 훈련된 모델, 사전 구축된 솔루션 템플릿 및 예제를 제공합니다. 이들은 SageMaker SDK와 Studio Classic을 사용합니다. SageMaker JumpStart에서 제공하는 이러한 모델, 솔루션 및 예제 노트북에 대한 자세한 내용은 SageMaker JumpStart 사전 훈련된 모델 섹션을 참조하세요.

지도 학습

Amazon SageMaker AI는 분류 또는 회귀 문제에 사용할 수 있는 몇 가지 내장 범용 알고리즘을 제공합니다.

AutoGluon-Tabular - 모델을 앙상블하고 여러 레이어로 쌓아 승계하는 오픈 소스 AutoML 프레임워크.
CatBoost - 그라디언트 부스트 트리 알고리즘의 구현으로, 순서가 있는 부스팅과 범주형 특성 처리를 위한 혁신적인 알고리즘의 구현.
Factorization Machine 알고리즘 - 고차원 저밀도 데이터세트 내 특성 간 상호 작용을 경제적으로 캡처하도록 설계된 선형 모델의 확장.
K-Nearest Neighbors(k-NN) 알고리즘 - 가장 가까운 레이블이 지정된 k 점을 사용하여 값을 할당하는 비모수적 메서드입니다. 분류의 경우 새 데이터 포인트의 레이블입니다. 회귀의 경우 가장 가까운 k 포인트의 평균에서 예측된 목표 값입니다.
LightGBM - 효율성과 확장성을 높이기 위해 두 가지 새로운 기법을 추가하는 그라데이션 부스트 트리 알고리즘의 구현입니다. 이 두 가지 새로운 기법은 GOSS(Gradient-based One-Side Sampling)와 EFB(Exclusive Feature Bundling)입니다.
선형 학습자 알고리즘 - 회귀를 위한 선형 함수 또는 분류를 위한 선형 임계값 함수를 학습합니다.
TabTransformer - 셀프 어텐션 기반 변환기를 기반으로 구축된 새로운 딥 테이블 형식 데이터 모델링 아키텍처.
Amazon SageMaker AI를 사용한 XGBoost 알고리즘 - 더 간단하고 약한 모델 세트의 예상치 앙상블을 결합하는 그라디언트 부스트 트리 알고리즘의 구현.

또한 Amazon SageMaker AI는 시계열 데이터에서 특성 엔지니어링 및 예측 중에 보다 특수한 작업에 사용되는 여러 가지 기본 제공 지도 학습 알고리즘을 제공합니다.

Object2Vec 알고리즘 - 특성 추출에 사용되는 고도로 사용자 지정이 가능한 새로운 다목적 알고리즘. 고차원 객체의 저차원 밀도 임베딩을 학습하여 다운스트림 모델의 훈련 효율성을 향상시키는 특성을 생성할 수 있습니다. 이 알고리즘은 훈련에 레이블이 지정된 데이터가 필요하기 때문에 지도 알고리즘이지만, 사람의 명시적인 주석 없이 데이터의 자연스러운 클러스터링을 통해서만 관계 레이블을 얻을 수 있는 시나리오가 많이 있습니다. 훈련을 위해 레이블이 지정된 데이터가 필요하지만 명시적인 인적 주석 없이도 발생할 수 있습니다.
SageMaker AI DeepAR 예측 알고리즘 사용 - 반복 신경망(RNN)을 사용하여 스칼라(1차원) 시계열을 예상하는 지도 학습 알고리즘.

비지도 학습

Amazon SageMaker AI는 다양한 비지도 학습 작업에 사용할 수 있는 몇 가지 기본 제공 알고리즘을 제공합니다. 이러한 작업에는 클러스터링, 차원 축소, 패턴 인식, 이상 감지 등이 포함됩니다.

Principal Component Analysis(PCA) 알고리즘 - 처음 몇 개의 주요 구성 요소에 데이터 포인트를 프로젝션하여 데이터세트 내의 차원(특성 수)을 줄입니다. 목표는 가능한 한 많은 정보나 변형을 유지하는 것입니다. 수학자의 경우 주요 구성 요소은 데이터 공분산 행렬의 고유벡터입니다.
k-means 알고리즘 - 데이터 내에서 이산 그룹화를 찾습니다. 이 경우 그룹의 멤버는 가급적 다른 멤버와 유사하고 다른 그룹의 멤버와는 최대한 다릅니다.
IP Insights - IPv4 주소의 사용 패턴을 학습합니다. IPv4 주소와 여러 엔터티(예: 사용자 ID 또는 계정 번호) 간 연결을 캡처하도록 설계되어 있습니다.
Random Cut Forest(RCF) 알고리즘 - 데이터세트 내에서 제대로 구조화되거나 패턴이 있는 데이터와 다른 비정상적인 데이터 포인트를 탐지합니다.

텍스트 분석

SageMaker AI는 텍스트 문서 분석에 맞게 조정된 알고리즘을 제공합니다. SageMaker는 자연어 처리, 문서 분류 또는 요약, 주제 모델링 또는 분류, 언어 트랜스크립션 또는 번역에 사용되는 텍스트 문서의 분석에 맞게 조정된 알고리즘을 제공합니다.

BlazingText 알고리즘 - 대규모 데이터세트로 쉽게 확장할 수 있는 Word2vec 및 텍스트 분류 알고리즘의 고도로 최적화된 구현. 많은 다운스트림 자연어 처리 (NLP) 태스크에 유용합니다.
Sequence-to-Sequence 알고리즘 - 신경망 기계 번역에 일반적으로 사용되는 감독형 알고리즘.
Latent Dirichlet Allocation(LDA) 알고리즘 - 여러 문서에서 주제를 결정하는 데 적합한 알고리즘. 비지도 알고리즘으로 훈련 중 답이 포함된 예제 데이터를 사용하지 않습니다.
Neural Topic Model(NTM) 알고리즘 - 신경망 접근 방식을 사용하여 여러 문서에서 주제를 결정하는 또 다른 비지도 기법.
텍스트 분류 - TensorFlow - 텍스트 분류에 사용할 수 있는 사전 훈련된 모델을 사용하여 전이 학습을 지원하는 지도 알고리즘.

이미지 프로세싱

SageMaker AI는 이미지 분류, 객체 감지 및 컴퓨터 비전에 사용되는 이미지 처리 알고리즘도 제공합니다.

이미지 분류 - MXNet - 답이 포함된 예제 데이터를 사용합니다(지도 알고리즘이라고 함). 이 알고리즘을 사용하여 이미지를 분류할 수 있습니다.
이미지 분류 - TensorFlow - 사전 훈련된 TensorFlow Hub 모델을 사용하여 특정 태스크에 맞게 미세 조정합니다(지도 알고리즘이라고 함). 이 알고리즘을 사용하여 이미지를 분류할 수 있습니다.
의미 체계 분할 알고리즘 - 컴퓨터 비전 응용 분야를 개발하는 데 세분화된 픽셀 수준 접근 방식을 제공합니다.
객체 감지 - MXNet - 단일 심층 신경망을 사용하여 이미지의 물체를 감지하고 분류합니다. 이 알고리즘은 입력으로 이미지를 가져와 이미지 장면 내에서 객체의 모든 인스턴스를 식별하는 지도 학습 알고리즘입니다.
객체 감지 - TensorFlow - 이미지에서 경계 상자와 객체 레이블을 감지합니다. 사전 훈련된 TensorFlow 모델에 사용할 수 있는 전이 학습을 지원하는 지도 알고리즘입니다.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

알고리즘 유형

공통 정보