AWS Step Functions에서 사용자 지정 Docker 컨테이너 이미지를 SageMaker 생성하여 모델 교육에 사용하십시오.

제작: 줄리아 블루슈츠 (AWS), 네하 샤르마 (AWS), 오브리 우스투이젠 (AWS), 모한 고다 푸루쇼타마 (AWS), 마테우스 자렘바 (AWS)

환경: 프로덕션

기술: 기계 학습 및 AI, DevOps

AWS 서비스: 아마존 ECR, 아마존 SageMaker, AWS Step Functions

요약

이 패턴은 SageMakerAmazon용 Docker 컨테이너 이미지를 생성하고 이를 AWS Step Functions의 교육 모델로 사용하는 방법을 보여줍니다. 사용자 지정 알고리즘을 컨테이너에 패키징하면 프로그래밍 언어, 프레임워크 또는 종속성에 관계없이 SageMaker 환경에서 거의 모든 코드를 실행할 수 있습니다.

제공된 예제 SageMaker 노트북에서는 사용자 지정 Docker 컨테이너 이미지가 Amazon Elastic Container Registry (Amazon ECR) 에 저장됩니다. 그러면 Step Functions는 Amazon ECR에 저장된 컨테이너를 사용하여 Python 처리 스크립트를 실행합니다. SageMaker 그런 다음 컨테이너는 모델을 Amazon Simple Storage 서비스 (Amazon S3) 로 내보냅니다.

사전 조건 및 제한 사항

사전 조건

활성 상태의 계정.
Amazon S3 권한을 위한 SageMaker AWS 자격 증명 및 액세스 관리 (IAM) 역할
Step Functions의 IAM 역할
Python에 대한 지식
Amazon SageMaker Python SDK에 대한 지식
AWS Command Line Interface(AWS CLI)에 대한 지식
AWS SDK for Phyton(Boto3)에 대한 지식
Amazon ECR에 대한 지식
Docker에 대한 지식

제품 버전

AWS Step Functions 데이터 사이언스 SDK 버전 2.3.0
아마존 SageMaker 파이썬 SDK 버전 2.78.0

아키텍처

다음 다이어그램은 Step Functions의 Docker 컨테이너 이미지를 만든 다음 이를 교육 모델에 사용하는 예제 워크플로를 보여줍니다. SageMaker

Step Functions 학습 모델로 사용할 Docker 컨테이너 이미지를 만드는 워크플로입니다. SageMaker

이 다이어그램은 다음 워크플로를 보여줍니다.

데이터 과학자 또는 DevOps 엔지니어는 Amazon SageMaker 노트북을 사용하여 사용자 지정 Docker 컨테이너 이미지를 생성합니다.
데이터 과학자 또는 DevOps 엔지니어는 Docker 컨테이너 이미지를 사설 레지스트리에 있는 Amazon ECR 사설 리포지토리에 저장합니다.
데이터 과학자 또는 DevOps 엔지니어는 Docker 컨테이너를 사용하여 Step Functions 워크플로우에서 Python SageMaker 처리 작업을 실행합니다.

자동화 및 규모 조정

이 패턴의 예제 SageMaker 노트북은 ml.m5.xlarge 노트북 인스턴스 유형을 사용합니다. 사용 사례에 맞게 인스턴스 유형을 변경할 수 있습니다. SageMaker 노트북 인스턴스 유형에 대한 자세한 내용은 Amazon SageMaker 요금을 참조하십시오.

도구

Amazon Elastic Container Registry(Amazon ECR)는 안전하고 확장 가능하고 신뢰할 수 있는 관리형 컨테이너 이미지 레지스트리 서비스입니다.
SageMakerAmazon은 ML 모델을 구축 및 교육한 다음 프로덕션에 바로 사용할 수 있는 호스팅 환경에 배포하는 데 도움이 되는 관리형 기계 학습 (ML) 서비스입니다.
Amazon SageMaker Python SDK는 기계 학습 모델을 교육하고 배포하기 위한 오픈 소스 라이브러리입니다. SageMaker
AWS Step Functions은 Lambda 함수와 기타 AWS 서비스를 결합할 수 있는 서버리스 오케스트레이션 서비스로, 비즈니스 크리티컬 애플리케이션을 구축합니다.
AWS Step Functions 데이터 과학 Python SDK는 기계 학습 모델을 처리하고 게시하는 Step Functions 워크플로를 생성하는 데 도움이 되는 오픈 소스 라이브러리입니다.

에픽

작업	설명	필요한 기술
Amazon ECR을 설정하고 새 프라이빗 레지스트리를 생성합니다.	아직 설정하지 않았다면 Amazon ECR 사용 설명서의 Amazon ECR로 설정에 나와 있는 지침에 따라 Amazon ECR을 설정합니다. 각 AWS 계정은 기본 프라이빗 Amazon ECR 레지스트리와 함께 제공됩니다.	DevOps 엔지니어
Amazon ECR 프라이빗 리포지토리를 생성합니다.	Amazon ECR 사용 설명서의 프라이빗 리포지토리 생성의 지침을 따릅니다. 참고: 생성한 리포지토리는 사용자 지정 Docker 컨테이너 이미지를 저장하는 곳입니다.	DevOps 엔지니어
처리 작업을 실행하는 데 필요한 사양이 포함된 Dockerfile을 만드세요. SageMaker	Dockerfile을 구성하여 SageMaker 처리 작업을 실행하는 데 필요한 사양이 포함된 Dockerfile을 생성하십시오. 지침은 Amazon SageMaker 개발자 안내서의 자체 교육 컨테이너 조정을 참조하십시오. Dockerfile에 대한 자세한 내용은 Docker 설명서의 Dockerfile 참조를 참조하십시오. Dockerfile을 생성하기 위한 Jupyter Notebook 코드 셀의 예 셀 1 `# Make docker folder !mkdir -p docker` 셀 2 `%%writefile docker/Dockerfile FROM python:3.7-slim-buster RUN pip3 install pandas==0.25.3 scikit-learn==0.21.3 ENV PYTHONUNBUFFERED=TRUE ENTRYPOINT ["python3"]`	DevOps 엔지니어
Docker 컨테이너 이미지를 구축하고 Amazon ECR에 푸시합니다.	AWS CLI에서 `docker build` 명령을 실행하여 생성한 Dockerfile을 사용하여 컨테이너 이미지를 빌드합니다. `docker push` 명령을 실행하여 컨테이너 이미지를 Amazon ECR로 푸시합니다. 자세한 내용은 자체 알고리즘 컨테이너 빌드에서 컨테이너 빌드 및 등록을 참조하십시오 GitHub. Docker 이미지를 빌드하고 등록하기 위한 Jupyter Notebook 코드 셀의 예 중요: 다음 셀을 실행하기 전에 Dockerfile을 생성하여 `docker`라는 디렉터리에 저장했는지 확인합니다. 또한 Amazon ECR 리포지토리를 생성했는지 확인하고 첫 번째 셀의 `ecr_repository` 값을 리포지토리 이름으로 바꿔야 합니다. 셀 1 `import boto3 tag = ':latest' account_id = boto3.client('sts').get_caller_identity().get('Account') region = boto3.Session().region_name ecr_repository = 'byoc' image_uri = '{}.dkr.ecr.{}.amazonaws.com/{}'.format(account_id, region, ecr_repository + tag)` 셀 2 `# Build docker image !docker build -t $image_uri docker` 셀 3 `# Authenticate to ECR !aws ecr get-login-password --region {region} \| docker login --username AWS --password-stdin {account_id}.dkr.ecr.{region}.amazonaws.com` 셀 4 `# Push docker image !docker push $image_uri` 참고: `docker push` 및 `docker pull` 명령을 사용할 수 있도록 Docker 클라이언트를 프라이빗 레지스트리에 인증해야 합니다. 이러한 명령은 레지스트리의 리포지토리로 이미지를 푸시하거나 가져옵니다.	DevOps 엔지니어

작업 설명 필요한 기술

작업	설명	필요한 기술
사용자 지정 처리 및 모델 학습 로직이 포함된 Python 스크립트를 생성합니다.	데이터 처리 스크립트에서 실행할 사용자 지정 처리 로직을 작성합니다. 그런 다음 이라는 이름이 `training.py`인 Python 스크립트로 저장합니다. 자세한 내용은 SageMaker 스크립트 모드가 켜진 상태에서 자체 모델 가져오기를 참조하십시오 GitHub. 사용자 지정 처리 및 모델 학습 로직이 포함된 예제 Python 스크립트 `%%writefile training.py from numpy import empty import pandas as pd import os from sklearn import datasets, svm from joblib import dump, load if __name__ == '__main__': digits = datasets.load_digits() #create classifier object clf = svm.SVC(gamma=0.001, C=100.) #fit the model clf.fit(digits.data[:-1], digits.target[:-1]) #model output in binary format output_path = os.path.join('/opt/ml/processing/model', "model.joblib") dump(clf, output_path)`	데이터 사이언티스트
SageMaker 처리 작업을 단계 중 하나로 포함하는 Step Functions 워크플로를 생성합니다.	AWS Step Functions 데이터 과학 SDK를 설치 및 가져오고 training.py 파일을 Amazon S3에 업로드합니다. 그런 다음 Amazon SageMaker Python SDK를 사용하여 Step Functions에서 처리 단계를 정의합니다. 중요: AWS 계정에서 Step Functions에 대한 IAM 실행 역할을 생성했는지 확인합니다. Amazon S3에 업로드하기 위한 예제 환경 설정 및 사용자 지정 교육 스크립트 !pip install stepfunctions import boto3 import stepfunctions import sagemaker import datetime from stepfunctions import steps from stepfunctions.inputs import ExecutionInput from stepfunctions.steps import ( Chain ) from stepfunctions.workflow import Workflow from sagemaker.processing import ScriptProcessor, ProcessingInput, ProcessingOutput sagemaker_session = sagemaker.Session() bucket = sagemaker_session.default_bucket() role = sagemaker.get_execution_role() prefix = 'byoc-training-model' # See prerequisites section to create this role workflow_execution_role = f"arn:aws:iam::{account_id}:role/AmazonSageMaker-StepFunctionsWorkflowExecutionRole" execution_input = ExecutionInput( schema={ "PreprocessingJobName": str}) input_code = sagemaker_session.upload_data( "training.py", bucket=bucket, key_prefix="preprocessing.py", ) 사용자 지정 Amazon ECR 이미지 및 Python 스크립트를 사용하는 SageMaker 처리 단계 정의 예시 참고: `execution_input` 파라미터를 사용하여 작업 이름을 지정해야 합니다. 파라미터 값은 작업이 실행될 때마다 고유해야 합니다. 또한 training.py 파일의 코드는 `input` 파라미터로 `ProcessingStep`에 전달되므로 컨테이너 내에 복사됩니다. `ProcessingInput` 코드의 대상은 `container_entrypoint`의 두 번째 인수와 동일합니다. script_processor = ScriptProcessor(command=['python3'], image_uri=image_uri, role=role, instance_count=1, instance_type='ml.m5.xlarge') processing_step = steps.ProcessingStep( "training-step", processor=script_processor, job_name=execution_input["PreprocessingJobName"], inputs=[ ProcessingInput( source=input_code, destination="/opt/ml/processing/input/code", input_name="code", ), ], outputs=[ ProcessingOutput( source='/opt/ml/processing/model', destination="s3://{}/{}".format(bucket, prefix), output_name='byoc-example') ], container_entrypoint=["python3", "/opt/ml/processing/input/code/training.py"], ) SageMaker 처리 작업을 실행하는 Step Functions 워크플로 예제 참고: 이 예제 워크플로에는 SageMaker 처리 작업 단계만 포함되며 전체 Step Functions 워크플로우는 포함되지 않습니다. 전체 예제 워크플로는 AWS Step Functions 데이터 과학 SDK 설명서의 예제 노트북을 참조하십시오. SageMaker `workflow_graph = Chain([processing_step]) workflow = Workflow( name="ProcessingWorkflow", definition=workflow_graph, role=workflow_execution_role ) workflow.create() # Execute workflow execution = workflow.execute( inputs={ "PreprocessingJobName": str(datetime.datetime.now().strftime("%Y%m%d%H%M-%SS")), # Each pre processing job (SageMaker processing job) requires a unique name, } ) execution_output = execution.get_output(wait=True)`	데이터 사이언티스트

사용자 지정 처리 및 모델 학습 로직이 포함된 Python 스크립트를 생성합니다.

데이터 처리 스크립트에서 실행할 사용자 지정 처리 로직을 작성합니다. 그런 다음 이라는 이름이 training.py인 Python 스크립트로 저장합니다.

자세한 내용은 SageMaker 스크립트 모드가 켜진 상태에서 자체 모델 가져오기를 참조하십시오 GitHub.

사용자 지정 처리 및 모델 학습 로직이 포함된 예제 Python 스크립트


%%writefile training.py
from numpy import empty
import pandas as pd
import os
from sklearn import datasets, svm
from joblib import dump, load


if __name__ == '__main__':
    digits = datasets.load_digits()
    #create classifier object
    clf = svm.SVC(gamma=0.001, C=100.)
    
    #fit the model
    clf.fit(digits.data[:-1], digits.target[:-1])
    
    #model output in binary format
    output_path = os.path.join('/opt/ml/processing/model', "model.joblib")
    dump(clf, output_path)

데이터 사이언티스트

SageMaker 처리 작업을 단계 중 하나로 포함하는 Step Functions 워크플로를 생성합니다.

AWS Step Functions 데이터 과학 SDK를 설치 및 가져오고 training.py 파일을 Amazon S3에 업로드합니다. 그런 다음 Amazon SageMaker Python SDK를 사용하여 Step Functions에서 처리 단계를 정의합니다.

중요: AWS 계정에서 Step Functions에 대한 IAM 실행 역할을 생성했는지 확인합니다.

Amazon S3에 업로드하기 위한 예제 환경 설정 및 사용자 지정 교육 스크립트


!pip install stepfunctions

import boto3
import stepfunctions
import sagemaker
import datetime

from stepfunctions import steps
from stepfunctions.inputs import ExecutionInput
from stepfunctions.steps import (
    Chain
)
from stepfunctions.workflow import Workflow
from sagemaker.processing import ScriptProcessor, ProcessingInput, ProcessingOutput

sagemaker_session = sagemaker.Session()
bucket = sagemaker_session.default_bucket() 
role = sagemaker.get_execution_role()
prefix = 'byoc-training-model'

# See prerequisites section to create this role
workflow_execution_role = f"arn:aws:iam::{account_id}:role/AmazonSageMaker-StepFunctionsWorkflowExecutionRole"

execution_input = ExecutionInput(
    schema={
        "PreprocessingJobName": str})


input_code = sagemaker_session.upload_data(
    "training.py",
    bucket=bucket,
    key_prefix="preprocessing.py",
)

사용자 지정 Amazon ECR 이미지 및 Python 스크립트를 사용하는 SageMaker 처리 단계 정의 예시

참고: execution_input 파라미터를 사용하여 작업 이름을 지정해야 합니다. 파라미터 값은 작업이 실행될 때마다 고유해야 합니다. 또한 training.py 파일의 코드는 input 파라미터로 ProcessingStep에 전달되므로 컨테이너 내에 복사됩니다. ProcessingInput 코드의 대상은 container_entrypoint의 두 번째 인수와 동일합니다.


script_processor = ScriptProcessor(command=['python3'],
                image_uri=image_uri,
                role=role,
                instance_count=1,
                instance_type='ml.m5.xlarge')


processing_step = steps.ProcessingStep(
    "training-step",
    processor=script_processor,
    job_name=execution_input["PreprocessingJobName"],
    inputs=[
        ProcessingInput(
            source=input_code,
            destination="/opt/ml/processing/input/code",
            input_name="code",
        ),
    ],
    outputs=[
        ProcessingOutput(
            source='/opt/ml/processing/model', 
            destination="s3://{}/{}".format(bucket, prefix), 
            output_name='byoc-example')
    ],
    container_entrypoint=["python3", "/opt/ml/processing/input/code/training.py"],
)

SageMaker 처리 작업을 실행하는 Step Functions 워크플로 예제

참고: 이 예제 워크플로에는 SageMaker 처리 작업 단계만 포함되며 전체 Step Functions 워크플로우는 포함되지 않습니다. 전체 예제 워크플로는 AWS Step Functions 데이터 과학 SDK 설명서의 예제 노트북을 참조하십시오. SageMaker


workflow_graph = Chain([processing_step])

workflow = Workflow(
    name="ProcessingWorkflow",
    definition=workflow_graph,
    role=workflow_execution_role
)

workflow.create()
# Execute workflow
execution = workflow.execute(
    inputs={
        "PreprocessingJobName": str(datetime.datetime.now().strftime("%Y%m%d%H%M-%SS")),  # Each pre processing job (SageMaker processing job) requires a unique name,
    }
)
execution_output = execution.get_output(wait=True)

데이터 사이언티스트

AWS Step Functions에서 사용자 지정 Docker 컨테이너 이미지를 SageMaker 생성하여 모델 교육에 사용하십시오.

요약

사전 조건 및 제한 사항

아키텍처

도구

에픽

관련 리소스