使用 Amazon SageMaker 中的推論管道，將預先處理邏輯部署到單一端點中的 ML 模型

Mohan Gowda Purushothama、Gabriel Rodriguez Garcia 和 Mateusz Zaremba，Amazon Web Services

Summary

此模式說明如何使用 Amazon SageMaker 中的推論管道，在單一端點中部署多個管道模型物件。管道模型物件代表不同的機器學習 (ML) 工作流程階段，例如預先處理、模型推論和後製處理。為了說明序列連線管道模型物件的部署，此模式示範如何根據內建於 SageMaker 的線性學習程式演算法，部署預先處理 Scikit-learn 容器和迴歸模型。 https://docs.aws.amazon.com/sagemaker/latest/dg/linear-learner.html SageMaker 部署託管在 SageMaker 中的單一端點後方。

注意

此模式中的部署會使用 ml.m4.2xlarge 執行個體類型。我們建議您使用符合您資料大小需求和工作流程複雜性的執行個體類型。如需更多資訊，請參閱 Amazon SageMaker 定價。此模式針對 Scikit-learn 使用預先建置的 Docker 映像，但您可以使用自己的 Docker 容器，並將其整合到您的工作流程。

先決條件和限制

先決條件

作用中的 AWS 帳戶
Python 3.9
Amazon SageMaker Python SDK 和 Boto3 程式庫
具有基本 SageMaker 許可和 Amazon Simple Storage Service (Amazon S3) 許可的 AWS Identity and Access Management (AWS IAM) 角色 https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-policy-language-overview.html

產品版本

Amazon SageMaker Python SDK 2.49.2

架構

目標技術堆疊

Amazon Elastic Container Registry (Amazon ECR)
Amazon SageMaker
Amazon SageMaker Studio
Amazon Simple Storage Service (Amazon S3)
Amazon SageMaker 的即時推論端點

目標架構

下圖顯示部署 Amazon SageMaker 管道模型物件的架構。

該圖顯示以下工作流程：

SageMaker 筆記本會部署管道模型。
S3 儲存貯體存放模型成品。
Amazon ECR 會從 S3 儲存貯體取得來源容器映像。

工具

AWS 工具

Amazon Elastic Container Registry (Amazon ECR) 是一種受管容器映像登錄服務，安全、可擴展且可靠。
Amazon SageMaker 是一種受管 ML 服務，可協助您建置和訓練 ML 模型，然後將模型部署到生產就緒的託管環境中。
Amazon SageMaker Studio 是適用於 ML 的 Web 型整合式開發環境 (IDE)，可讓您建置、訓練、偵錯、部署和監控 ML 模型。
Amazon Simple Storage Service (Amazon S3) 是一種雲端型物件儲存服務，可協助您儲存、保護和擷取任何數量的資料。

Code

此模式的程式碼可在 GitHub 推論管道搭配 Scikit-learn 和線性學習程式儲存庫中使用。

史詩

任務描述所需的技能

任務	描述	所需的技能
為您的迴歸任務準備資料集。	在 Amazon SageMaker Studio 中開啟筆記本。若要匯入所有必要的程式庫並初始化您的工作環境，請在筆記本中使用下列範例程式碼： `import sagemaker from sagemaker import get_execution_role sagemaker_session = sagemaker.Session() # Get a SageMaker-compatible role used by this Notebook Instance. role = get_execution_role() # S3 prefix bucket = sagemaker_session.default_bucket() prefix = "Scikit-LinearLearner-pipeline-abalone-example"` 若要下載範例資料集，請將下列程式碼新增至您的筆記本： `! mkdir abalone_data ! aws s3 cp s3://sagemaker-sample-files/datasets/tabular/uci_abalone/abalone.csv ./abalone_data` 注意此模式中的範例使用 UCI Machine Learning 儲存庫中的鮑魚資料集。	資料科學家
將資料集上傳至 S3 儲存貯體。	在您先前準備資料集的筆記本中，新增下列程式碼，將範例資料上傳至 S3 儲存貯體： `WORK_DIRECTORY = "abalone_data" train_input = sagemaker_session.upload_data( path="{}/{}".format(WORK_DIRECTORY, "abalone.csv"), bucket=bucket, key_prefix="{}/{}".format(prefix, "train"), )`	資料科學家

為您的迴歸任務準備資料集。

在 Amazon SageMaker Studio 中開啟筆記本。

若要匯入所有必要的程式庫並初始化您的工作環境，請在筆記本中使用下列範例程式碼：


import sagemaker
from sagemaker import get_execution_role

sagemaker_session = sagemaker.Session()

# Get a SageMaker-compatible role used by this Notebook Instance.
role = get_execution_role()

# S3 prefix
bucket = sagemaker_session.default_bucket()
prefix = "Scikit-LinearLearner-pipeline-abalone-example"

若要下載範例資料集，請將下列程式碼新增至您的筆記本：


! mkdir abalone_data
! aws s3 cp s3://sagemaker-sample-files/datasets/tabular/uci_abalone/abalone.csv ./abalone_data

注意

此模式中的範例使用 UCI Machine Learning 儲存庫中的鮑魚資料集。

資料科學家

將資料集上傳至 S3 儲存貯體。

在您先前準備資料集的筆記本中，新增下列程式碼，將範例資料上傳至 S3 儲存貯體：


WORK_DIRECTORY = "abalone_data"

train_input = sagemaker_session.upload_data(
    path="{}/{}".format(WORK_DIRECTORY, "abalone.csv"),
    bucket=bucket,
    key_prefix="{}/{}".format(prefix, "train"),
)

資料科學家

任務描述所需的技能

任務	描述	所需的技能
準備 preprocessor.py 指令碼。	從 GitHub sklearn_abalone_featurizer.py 儲存庫中的 Python 檔案複製預先處理邏輯，然後將程式碼貼到名為的個別 Python 檔案中`sklearn_abalone_featurizer.py`。您可以修改程式碼以符合您的自訂資料集和自訂工作流程。將`sklearn_abalone_featurizer.py`檔案儲存在專案的根目錄中（也就是在您執行 SageMaker 筆記本的相同位置）。	資料科學家
建立 SKLearn 預處理器物件。	若要建立可納入最終推論管道的 SKLearn 預處理器物件（稱為 SKLearn 估算器），請在 SageMaker 筆記本中執行下列程式碼： `from sagemaker.sklearn.estimator import SKLearn FRAMEWORK_VERSION = "0.23-1" script_path = "sklearn_abalone_featurizer.py" sklearn_preprocessor = SKLearn( entry_point=script_path, role=role, framework_version=FRAMEWORK_VERSION, instance_type="ml.c4.xlarge", sagemaker_session=sagemaker_session, ) sklearn_preprocessor.fit({"train": train_input})`	資料科學家
測試預處理器的推論。	若要確認您的預處理器已正確定義，請在 SageMaker 筆記本中輸入下列程式碼來啟動批次轉換任務： `# Define a SKLearn Transformer from the trained SKLearn Estimator transformer = sklearn_preprocessor.transformer( instance_count=1, instance_type="ml.m5.xlarge", assemble_with="Line", accept="text/csv" ) # Preprocess training input transformer.transform(train_input, content_type="text/csv") print("Waiting for transform job: " + transformer.latest_transform_job.job_name) transformer.wait() preprocessed_train = transformer.output_path`

準備 preprocessor.py 指令碼。

從 GitHub sklearn_abalone_featurizer.py 儲存庫中的 Python 檔案複製預先處理邏輯，然後將程式碼貼到名為的個別 Python 檔案中sklearn_abalone_featurizer.py。您可以修改程式碼以符合您的自訂資料集和自訂工作流程。
將sklearn_abalone_featurizer.py檔案儲存在專案的根目錄中（也就是在您執行 SageMaker 筆記本的相同位置）。

資料科學家

建立 SKLearn 預處理器物件。

若要建立可納入最終推論管道的 SKLearn 預處理器物件（稱為 SKLearn 估算器），請在 SageMaker 筆記本中執行下列程式碼：


from sagemaker.sklearn.estimator import SKLearn

FRAMEWORK_VERSION = "0.23-1"
script_path = "sklearn_abalone_featurizer.py"

sklearn_preprocessor = SKLearn(
    entry_point=script_path,
    role=role,
    framework_version=FRAMEWORK_VERSION,
    instance_type="ml.c4.xlarge",
    sagemaker_session=sagemaker_session,
)
sklearn_preprocessor.fit({"train": train_input})

資料科學家

測試預處理器的推論。

若要確認您的預處理器已正確定義，請在 SageMaker 筆記本中輸入下列程式碼來啟動批次轉換任務：


# Define a SKLearn Transformer from the trained SKLearn Estimator
transformer = sklearn_preprocessor.transformer(
    instance_count=1, instance_type="ml.m5.xlarge", assemble_with="Line", accept="text/csv"
)


# Preprocess training input
transformer.transform(train_input, content_type="text/csv")
print("Waiting for transform job: " + transformer.latest_transform_job.job_name)
transformer.wait()
preprocessed_train = transformer.output_path

任務描述所需的技能

任務	描述	所需的技能
建立模型物件。	若要根據線性學習程式演算法建立模型物件，請在 SageMaker 筆記本中輸入下列程式碼： import boto3 from sagemaker.image_uris import retrieve ll_image = retrieve("linear-learner", boto3.Session().region_name) s3_ll_output_key_prefix = "ll_training_output" s3_ll_output_location = "s3://{}/{}/{}/{}".format( bucket, prefix, s3_ll_output_key_prefix, "ll_model" ) ll_estimator = sagemaker.estimator.Estimator( ll_image, role, instance_count=1, instance_type="ml.m4.2xlarge", volume_size=20, max_run=3600, input_mode="File", output_path=s3_ll_output_location, sagemaker_session=sagemaker_session, ) ll_estimator.set_hyperparameters(feature_dim=10, predictor_type="regressor", mini_batch_size=32) ll_train_data = sagemaker.inputs.TrainingInput( preprocessed_train, distribution="FullyReplicated", content_type="text/csv", s3_data_type="S3Prefix", ) data_channels = {"train": ll_train_data} ll_estimator.fit(inputs=data_channels, logs=True) 上述程式碼會從模型的公有 Amazon ECR 登錄檔擷取相關的 Amazon ECR Docker 影像、建立估算器物件，然後使用該物件來訓練迴歸模型。	資料科學家

建立模型物件。

若要根據線性學習程式演算法建立模型物件，請在 SageMaker 筆記本中輸入下列程式碼：


import boto3
from sagemaker.image_uris import retrieve

ll_image = retrieve("linear-learner", boto3.Session().region_name)
s3_ll_output_key_prefix = "ll_training_output"
s3_ll_output_location = "s3://{}/{}/{}/{}".format(
    bucket, prefix, s3_ll_output_key_prefix, "ll_model"
)

ll_estimator = sagemaker.estimator.Estimator(
    ll_image,
    role,
    instance_count=1,
    instance_type="ml.m4.2xlarge",
    volume_size=20,
    max_run=3600,
    input_mode="File",
    output_path=s3_ll_output_location,
    sagemaker_session=sagemaker_session,
)

ll_estimator.set_hyperparameters(feature_dim=10, predictor_type="regressor", mini_batch_size=32)

ll_train_data = sagemaker.inputs.TrainingInput(
    preprocessed_train,
    distribution="FullyReplicated",
    content_type="text/csv",
    s3_data_type="S3Prefix",
)

data_channels = {"train": ll_train_data}
ll_estimator.fit(inputs=data_channels, logs=True)

上述程式碼會從模型的公有 Amazon ECR 登錄檔擷取相關的 Amazon ECR Docker 影像、建立估算器物件，然後使用該物件來訓練迴歸模型。

資料科學家

任務描述所需的技能

任務	描述	所需的技能
部署管道模型。	若要建立管道模型物件（即預處理器物件）並部署物件，請在 SageMaker 筆記本中輸入下列程式碼： from sagemaker.model import Model from sagemaker.pipeline import PipelineModel import boto3 from time import gmtime, strftime timestamp_prefix = strftime("%Y-%m-%d-%H-%M-%S", gmtime()) scikit_learn_inferencee_model = sklearn_preprocessor.create_model() linear_learner_model = ll_estimator.create_model() model_name = "inference-pipeline-" + timestamp_prefix endpoint_name = "inference-pipeline-ep-" + timestamp_prefix sm_model = PipelineModel( name=model_name, role=role, models= [scikit_learn_inferencee_model, linear_learner_model] ) sm_model.deploy(initial_instance_count=1, instance_type="ml.c4.xlarge", endpoint_name=endpoint_name) 注意您可以調整模型物件中使用的執行個體類型，以符合您的需求。	資料科學家
測試推論。	若要確認端點是否正常運作，請在 SageMaker 筆記本中執行下列範例推論程式碼： `from sagemaker.predictor import Predictor from sagemaker.serializers import CSVSerializer payload = "M, 0.44, 0.365, 0.125, 0.516, 0.2155, 0.114, 0.155" actual_rings = 10 predictor = Predictor( endpoint_name=endpoint_name, sagemaker_session=sagemaker_session, serializer=CSVSerializer() ) print(predictor.predict(payload))`	資料科學家

部署管道模型。

若要建立管道模型物件（即預處理器物件）並部署物件，請在 SageMaker 筆記本中輸入下列程式碼：


from sagemaker.model import Model
from sagemaker.pipeline import PipelineModel
import boto3
from time import gmtime, strftime

timestamp_prefix = strftime("%Y-%m-%d-%H-%M-%S", gmtime())

scikit_learn_inferencee_model = sklearn_preprocessor.create_model()
linear_learner_model = ll_estimator.create_model()

model_name = "inference-pipeline-" + timestamp_prefix
endpoint_name = "inference-pipeline-ep-" + timestamp_prefix
sm_model = PipelineModel(
    name=model_name, role=role, models= [scikit_learn_inferencee_model, linear_learner_model]
)

sm_model.deploy(initial_instance_count=1, instance_type="ml.c4.xlarge", endpoint_name=endpoint_name)

注意

您可以調整模型物件中使用的執行個體類型，以符合您的需求。

資料科學家

測試推論。

若要確認端點是否正常運作，請在 SageMaker 筆記本中執行下列範例推論程式碼：


from sagemaker.predictor import Predictor
from sagemaker.serializers import CSVSerializer

payload = "M, 0.44, 0.365, 0.125, 0.516, 0.2155, 0.114, 0.155"
actual_rings = 10
predictor = Predictor(
    endpoint_name=endpoint_name, sagemaker_session=sagemaker_session, serializer=CSVSerializer()
)

print(predictor.predict(payload))

資料科學家

使用 Amazon SageMaker 中的推論管道，將預先處理邏輯部署到單一端點中的 ML 模型

Summary

注意

先決條件和限制

架構

工具

史詩

注意

注意

相關資源