Amazon을 사용한 기계 학습 개요 SageMaker - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon을 사용한 기계 학습 개요 SageMaker

이 섹션에서는 일반적인 기계 학습 (ML) 워크플로를 설명하고 Amazon에서 이러한 작업을 수행하는 방법을 설명합니다. SageMaker

기계 학습에서는 컴퓨터에 예측이나 추론을 하도록 가르칩니다. 우선 알고리즘과 예제 데이터를 사용하여 모델을 훈련합니다. 그런 다음 모델을 애플리케이션에 통합하여 실시간으로 대규모로 추론을 생성합니다.

다음 다이어그램은 ML 모델을 만드는 일반적인 워크플로를 보여줍니다. 여기에는 순환 흐름의 세 단계가 포함되며, 다이어그램을 진행하면서 더 자세히 설명합니다.

  • 예제 데이터 생성

  • 모델 학습

  • 모델 배포

ML 모델 생성의 3단계 (예제 데이터 생성, 모델 교육, 모델 배포 포함).

다이어그램은 대부분의 일반적인 시나리오에서 다음 작업을 수행하는 방법을 보여줍니다.

  1. 예제 데이터 생성 - 모델을 학습시키려면 예제 데이터가 필요합니다. 필요한 데이터 유형은 모델로 해결하려는 비즈니스 문제에 따라 달라집니다. 이는 모델을 통해 생성하려는 추론과 관련이 있습니다. 손으로 쓴 숫자의 입력 이미지에서 숫자를 예측하는 모델을 만들려는 경우를 예로 들 수 있습니다. 이 모델을 훈련시키려면 손으로 쓴 숫자의 예제 이미지가 필요합니다.

    데이터 사이언티스트는 모델 학습에 사용하기 전에 예제 데이터를 탐색하고 전처리하는 데 시간을 할애하는 경우가 많습니다. 데이터를 사전 처리하려면 일반적으로 다음을 수행합니다.

    1. 데이터 가져오기 — 사내 예제 데이터 리포지토리가 있거나 공개적으로 사용 가능한 데이터세트를 사용할 수 있습니다. 일반적으로 데이터 세트를 단일 리포지토리로 끌어옵니다.

    2. 데이터 정리 — 모델 학습을 개선하려면 필요에 따라 데이터를 검사하고 정리하세요. 예를 들어 데이터에 값이 United States 있는 country name 속성이 있는 경우 일관성을 유지하도록 데이터를 편집할 수 있습니다. US

    3. 데이터 준비 또는 변환 - 성능을 개선하기 위해 추가 데이터 변환을 수행할 수 있습니다. 예를 들어 항공기의 제빙이 필요한 조건을 예측하는 모델의 속성을 조합하도록 선택할 수 있습니다. 온도와 습도 속성을 따로 사용하는 대신 이러한 속성을 새 속성으로 결합하여 더 나은 모델을 만들 수 있습니다.

    SageMaker에서는 통합 개발 환경 (IDE) 에서 SageMaker Python SageMaker SDK가 포함된 API를 사용하여 예제 데이터를 전처리할 수 있습니다. Python용 SDK (Boto3) 를 사용하면 모델 학습을 위해 데이터를 가져오고 탐색하고 준비할 수 있습니다. 데이터 준비, 처리 및 데이터 변환에 대한 자세한 내용은, 및 을 참조하십시오. 에서 올바른 데이터 준비 도구를 선택하기 위한 권장 사항 SageMaker 처리 작업을 사용하여 데이터 변환 워크로드 실행 Feature Store를 사용하여 기능을 만들고, 저장하고, 공유하세요.

  2. 모델 학습 — 모델 학습에는 다음과 같이 모델 학습과 평가가 모두 포함됩니다.

  3. 모델 배포 — 일반적으로 모델을 애플리케이션과 통합하고 배포하기 전에 모델을 재설계합니다. SageMaker 호스팅 서비스를 사용하면 모델을 애플리케이션 코드와 분리하여 독립적으로 배포할 수 있습니다. 자세한 정보는 추론 모델 배포을 참조하세요.

기계 학습은 연속적인 순환입니다. 모델을 배포한 후에는 추론을 모니터링하고, 더 높은 품질의 데이터를 수집하고, 모델을 평가하여 편차를 식별합니다. 그런 다음 새로 수집한 고품질 데이터를 포함하도록 훈련 데이터를 업데이트하여 추론의 정확도를 높입니다. 더 많은 예제 데이터를 사용할 수 있게 되면 모델을 계속 재학습하여 정확도를 높입니다.