사용 사례 - Amazon Redshift

사용 사례

다음 사용 사례는 필요에 맞게 CREATE MODEL을 사용하는 방법을 보여줍니다.

단순 CREATE MODEL

다음은 CREATE MODEL 구문의 기본 옵션을 요약한 것입니다.

단순 CREATE MODEL 구문

CREATE MODEL model_name FROM { table_name | ( select_query ) } TARGET column_name FUNCTION prediction_function_name IAM_ROLE { default } SETTINGS ( S3_BUCKET 'amzn-s3-demo-bucket', [ MAX_CELLS integer ] )

단순 CREATE MODEL 파라미터

model_name

모델의 이름입니다. 스키마의 모델 이름은 고유해야 합니다.

FROM { table_name | ( select_query ) }

table_name 또는 훈련 데이터를 지정하는 쿼리입니다. 시스템의 기존 테이블이거나 괄호로 묶인 Amazon Redshift 호환 SELECT 쿼리, 즉 ()일 수 있습니다. 쿼리 결과에는 2개 이상의 열이 있어야 합니다.

TARGET column_name

예측 대상이 되는 열의 이름입니다. FROM 절에 열이 있어야 합니다.

FUNCTION prediction_function_name

CREATE MODEL에서 생성하고 이 모델을 사용하여 예측하는 데 사용할 Amazon Redshift 기계 학습 함수의 이름을 지정하는 값입니다. 이 함수는 모델 객체와 동일한 스키마에 생성되며 오버로드될 수 있습니다.

Amazon Redshift 기계 학습은 회귀 및 분류를 위한 XGBoost(Xtreme Gradient Boosted tree) 모델과 같은 모델을 지원합니다.

IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' }

기본 키워드를 사용하여 CREAT MODEL 명령이 실행될 때 Amazon Redshift에서 기본값으로 설정되고 클러스터와 연결된 IAM 역할을 사용하도록 합니다. 또는 IAM 역할의 ARN을 지정하여 해당 역할을 사용할 수도 있습니다.

S3_BUCKET 'amzn-s3-demo-bucket'

이전에 생성한 Amazon S3 버킷의 이름은 Amazon Redshift와 SageMaker 간에 훈련 데이터와 아티팩트를 공유하는 데 사용됩니다. Amazon Redshift는 훈련 데이터를 언로드하기 전에 이 버킷에 하위 폴더를 생성합니다. 훈련이 완료되면 Amazon Redshift는 생성된 하위 폴더와 해당 콘텐츠를 삭제합니다.

MAX_CELLS 정수

FROM 절에서 내보낼 최대 셀 수입니다. 기본값은 1,000,000입니다.

셀 수는 훈련 데이터의 행 수(FROM 절 테이블 또는 쿼리에 의해 생성됨)에 열 수를 곱한 값입니다. 훈련 데이터의 셀 수가 max_cells 파라미터에 지정된 것보다 많은 경우 CREATE MODEL은 FROM 절 훈련 데이터를 다운샘플링하여 훈련 집합의 크기를 MAX_CELLS 미만으로 줄입니다. 더 큰 훈련 데이터 집합을 허용하면 정확도를 높일 수 있지만 모델을 훈련하는 데 더 많은 시간과 비용이 더 많이 들 수 있습니다.

Amazon Redshift 사용 비용에 대한 자세한 내용은 Amazon Redshift 기계 학습 사용 비용 섹션을 참조하세요.

다양한 셀 번호와 관련된 비용 및 무료 평가판 세부 정보에 대한 자세한 내용은 Amazon Redshift 요금 섹션을 참조하세요.

사용자 안내에 따라 CREATE MODEL

다음으로 단순 CREATE MODEL에 설명된 옵션 외에 CREATE MODEL에 대한 옵션에 대한 설명을 찾아볼 수 있습니다.

기본적으로 CREATE MODEL은 특정 데이터 집합에 대한 최적의 전처리 및 모델 조합을 검색합니다. 추가 제어를 원하거나 모델에 대한 추가 도메인 지식(예: 문제 유형 또는 목표)을 도입할 수 있습니다. 고객 이탈 시나리오에서 "고객이 활동하고 있지 않음"이라는 결과가 드물다면 F1 목표가 정확도 목표보다 선호되는 경우가 많습니다. 높은 정확도 모델은 항상 "고객이 활동하고 있음"이라고 예측할 수 있기 때문에 정확도는 높지만 비즈니스 가치는 거의 없습니다. F1 목표에 대한 자세한 내용은 Amazon SageMaker API ReferenceAutoMLJobObjective 섹션을 참조하세요.

그런 다음 CREATE MODEL은 목표와 같은 지정된 측면에 대한 제안을 따릅니다. 동시에 CREATE MODEL은 최고의 전처리기와 최고의 하이퍼파라미터를 자동으로 검색합니다.

사용자 안내 구문으로 CREATE MODEL

CREATE MODEL은 지정할 수 있는 측면과 Amazon Redshift가 자동으로 검색하는 측면에서 더 많은 유연성을 제공합니다.

CREATE MODEL model_name FROM { table_name | ( select_statement ) } TARGET column_name FUNCTION function_name IAM_ROLE { default } [ MODEL_TYPE { XGBOOST | MLP | LINEAR_LEARNER} ] [ PROBLEM_TYPE ( REGRESSION | BINARY_CLASSIFICATION | MULTICLASS_CLASSIFICATION ) ] [ OBJECTIVE ( 'MSE' | 'Accuracy' | 'F1' | 'F1Macro' | 'AUC') ] SETTINGS ( S3_BUCKET 'amzn-s3-demo-bucket', | S3_GARBAGE_COLLECT { ON | OFF }, | KMS_KEY_ID 'kms_key_id', | MAX_CELLS integer, | MAX_RUNTIME integer (, ...) )

사용자 안내 파라미터로 CREATE MODEL

MODEL_TYPE { XGBOOST | MLP | LINEAR_LEARNER }

(옵션) 모델 유형을 지정합니다. XGBoost, 다층 퍼셉트론(MLP) 또는 Linear Learner와 같은 특정 모델 유형의 모델을 교육할지 여부를 지정할 수 있습니다. 이 모델은 모두 Amazon SageMaker Autopilot에서 지원하는 알고리즘입니다. 파라미터를 지정하지 않으면 지원되는 모든 모델 유형이 훈련 중 최상의 모델을 찾기 위해 검색됩니다.

PROBLEM_TYPE ( REGRESSION | BINARY_CLASSIFICATION | MULTICLASS_CLASSIFICATION )

(옵션) 문제 유형을 지정합니다. 문제 유형을 알고 있는 경우 해당 특정 모델 유형의 최상의 모델만 검색하도록 Amazon Redshift를 제한할 수 있습니다. 이 파라미터를 지정하지 않으면 데이터를 기반으로 훈련 중 문제 유형이 검색됩니다.

OBJECTIVE ( 'MSE' | 'Accuracy' | 'F1' | 'F1Macro' | 'AUC')

(옵션) 기계 학습 시스템의 예측 품질을 측정하는 데 사용되는 목표 지표의 이름을 지정합니다. 이 지표는 데이터의 모델 파라미터 값에 대한 최상의 추정치를 제공하기 위해 훈련 중에 최적화됩니다. 지표를 명시적으로 지정하지 않은 경우 기본 동작은 MSE(회귀 분석의 경우), F1(이진 분류의 경우), 정확도(다중 클래스 분류의 경우)를 자동으로 사용하는 것입니다. 목표에 대한 자세한 내용은 Amazon SageMaker API ReferenceAutoMLJobObjective 섹션을 참조하세요.

MAX_CELLS 정수

(옵션) 훈련 데이터의 셀 수를 지정합니다. 이 값은 레코드 수(훈련 쿼리 또는 테이블)에 열 수를 곱한 값입니다. 기본값은 1,000,000입니다.

MAX_RUNTIME 정수

(옵션) 훈련할 최대 시간을 지정합니다. 데이터 집합 크기에 따라 훈련 작업이 더 빨리 완료되는 경우가 많습니다. 이는 훈련에 소요되는 최대 시간을 지정합니다. 기본값은 5,400(90분)입니다.

S3_GARBAGE_COLLECT { ON | OFF }

(옵션) Amazon Redshift가 모델 훈련에 사용되는 결과 데이터 집합에 대해 가비지 수집을 수행할지 여부를 지정합니다. OFF로 설정하면 모델 훈련에 사용된 결과 데이터 집합과 모델이 Amazon S3에 남아 다른 용도로 사용할 수 있습니다. ON으로 설정하면 훈련이 완료된 후 Amazon Redshift가 Amazon S3에서 아티팩트를 삭제합니다. 기본값은 ON입니다.

KMS_KEY_ID 'kms_key_id'

(옵션) Amazon Redshift가 AWS KMS 키로 서버 측 암호화를 사용하여 저장된 데이터를 보호할지 여부를 지정합니다. 전송 중인 데이터는 보안 소켓 계층(SSL)으로 보호됩니다.

PREPROCESSORS 'string'

(옵션) 특정 열 집합에 대한 전처리기의 특정 조합을 지정합니다. 형식은 columnSet의 목록과 각 열 집합에 적용할 적절한 변환입니다. Amazon Redshift는 특정 변환기 목록의 모든 변환기를 해당 ColumnSet의 모든 열에 적용합니다. 예를 들어 Imputer가 있는 OneHotEncoder를 열 t1 및 t2에 적용하려면 다음 샘플 명령을 사용합니다.

CREATE MODEL customer_churn FROM customer_data TARGET 'Churn' FUNCTION predict_churn IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' } PROBLEM_TYPE BINARY_CLASSIFICATION OBJECTIVE 'F1' PREPROCESSORS '[ ... {"ColumnSet": [ "t1", "t2" ], "Transformers": [ "OneHotEncoder", "Imputer" ] }, {"ColumnSet": [ "t3" ], "Transformers": [ "OneHotEncoder" ] }, {"ColumnSet": [ "temp" ], "Transformers": [ "Imputer", "NumericPassthrough" ] } ]' SETTINGS ( S3_BUCKET 'amzn-s3-demo-bucket' )

Amazon Redshift는 다음 변환기를 지원합니다.

  • OneHotEncoder - 일반적으로 이산 값을 하나의 0이 아닌 값이 있는 이진 벡터로 인코딩하는 데 사용됩니다. 이 변환기는 많은 기계 학습 모델에 적합합니다.

  • OrdinalEncoder – 이산 값을 단일 정수로 인코딩합니다. 이 변환기는 MLP 및 Linear Learner와 같은 특정 기계 학습 모델에 적합합니다.

  • NumericPassthrough – 입력을 있는 그대로 모델에 전달합니다.

  • Imputer – 누락된 값과 NaN(Not a Number) 값을 채웁니다.

  • ImputerWithIndicator – 누락된 값과 NaN 값을 채웁니다. 또한 이 변환기는 누락되어 채워진 값이 있는지 여부에 대한 표시기를 생성합니다.

  • Normalizer – 많은 기계 학습 알고리즘의 성능을 향상시킬 수 있는 값을 정규화합니다.

  • DateTimeVectorizer - 기계 학습 모델에서 사용할 수 있는 날짜/시간 데이터 형식의 열을 나타내는 벡터 임베딩을 생성합니다.

  • PCA - 가능한 한 많은 정보를 유지하면서 특성 수를 줄이기 위해 데이터를 저차원 공간에 표시합니다.

  • StandardScaler – 평균을 제거하고 단위 분산에 맞게 조정하여 특성을 표준화합니다.

  • MinMax – 각 특성을 지정된 범위로 확장하여 특성을 변환합니다.

Amazon Redshift 기계 학습은 훈련된 변환기를 저장하고 예측 쿼리의 일부로 자동 적용합니다. 모델에서 예측을 생성할 때는 변환기를 지정할 필요가 없습니다.

AUTO OFF로 CREATE XGBoost 모델

AUTO OFF CREATE MODEL은 일반적으로 기본 CREATE MODEL과 다른 목표를 가지고 있습니다.

원하는 모델 유형과 이러한 모델을 훈련할때 사용할 하이퍼파라미터를 이미 알고 있는 고급 사용자는 AUTO OFF와 함께 CREATE MODEL을 사용하여 전처리기 및 하이퍼파라미터의 CREATE MODEL 자동 검색을 해제할 수 있습니다. 이를 위해서는 모델 유형을 명시적으로 지정합니다. XGBoost는 현재 AUTO가 OFF로 설정된 경우 지원되는 유일한 모델 유형입니다. 하이퍼파라미터를 지정할 수 있습니다. Amazon Redshift는 지정한 하이퍼파라미터에 대해 기본값을 사용합니다.

AUTO OFF 구문이 있는 CREATE XGBoost 모델

CREATE MODEL model_name FROM { table_name | (select_statement ) } TARGET column_name FUNCTION function_name IAM_ROLE { default } AUTO OFF MODEL_TYPE XGBOOST OBJECTIVE { 'reg:squarederror' | 'reg:squaredlogerror' | 'reg:logistic' | 'reg:pseudohubererror' | 'reg:tweedie' | 'binary:logistic' | 'binary:hinge' | 'multi:softmax' | 'rank:pairwise' | 'rank:ndcg' } HYPERPARAMETERS DEFAULT EXCEPT ( NUM_ROUND '10', ETA '0.2', NUM_CLASS '10', (, ...) ) PREPROCESSORS 'none' SETTINGS ( S3_BUCKET 'amzn-s3-demo-bucket', | S3_GARBAGE_COLLECT { ON | OFF }, | KMS_KEY_ID 'kms_key_id', | MAX_CELLS integer, | MAX_RUNTIME integer (, ...) )

AUTO OFF 파라미터로 CREATE XGBoost 모델

AUTO OFF

전처리기, 알고리즘 및 하이퍼파라미터 선택의 CREATE MODEL 자동 검색을 해제합니다.

MODEL_TYPE XGBOOST

XGBOOST를 사용하여 모델을 훈련하도록 지정합니다.

OBJECTIVE str

알고리즘에서 인식하는 목표를 지정합니다. Amazon Redshift는 reg:squarederror, reg:squaredlogerror, reg:logistic, reg:pseudohubererror, reg:tweedie, binary:logistic, binary:hinge, multi:softmax를 지원합니다. 이러한 목표에 대한 자세한 내용은 XGBoost 설명서의 Learning task parameters 섹션을 참조하세요.

HYPERPARAMETERS { DEFAULT | DEFAULT EXCEPT ( key ‘value’ (,..) ) }

기본 XGBoost 파라미터가 사용되는지 아니면 사용자 지정 값으로 재정의되는지를 지정합니다. 작은따옴표로 값을 묶여야 합니다. 다음은 XGBoost에 대한 파라미터와 해당 기본값의 예입니다.

파라미터 이름 파라미터 값 기본값 참고

num_class

Integer

다중 클래스 분류에 필요합니다.

N/A

num_round

Integer

100

N/A

tree_method

String 자동 N/A

max_depth

Integer 6 [0 , 10]
min_child_weight Float 1 MinValue: 0, MaxValue: 120
subsample Float 1 MinValue: 0.5, MaxValue: 1
gamma Float 0 MinValue: 0, MaxValue: 5
alpha Float 0 MinValue: 0, MaxValue: 1000
eta Float 0.3 MinValue: 0.1, MaxValue: 0.5
colsample_byleve Float 1 MinValue: 0.1, MaxValue: 1
colsample_bynode Float 1 MinValue: 0.1, MaxValue: 1
colsample_bytree Float 1 MinValue: 0.5, MaxValue: 1
lambda Float 1 MinValue: 0, MaxValue: 1000
max_delta_step Integer 0 [0, 10]

다음 예에서는 XGBoost용 데이터를 준비합니다.

DROP TABLE IF EXISTS abalone_xgb; CREATE TABLE abalone_xgb ( length_val float, diameter float, height float, whole_weight float, shucked_weight float, viscera_weight float, shell_weight float, rings int, record_number int); COPY abalone_xgb FROM 's3://redshift-downloads/redshift-ml/abalone_xg/' REGION 'us-east-1' IAM_ROLE default IGNOREHEADER 1 CSV;

다음 예에서는 MODEL_TYPE, OBJECTIVE 및 PREPROCESSORS와 같은 고급 옵션이 지정된 XGBoost 모델을 생성합니다.

DROP MODEL abalone_xgboost_multi_predict_age; CREATE MODEL abalone_xgboost_multi_predict_age FROM ( SELECT length_val, diameter, height, whole_weight, shucked_weight, viscera_weight, shell_weight, rings FROM abalone_xgb WHERE record_number < 2500 ) TARGET rings FUNCTION ml_fn_abalone_xgboost_multi_predict_age IAM_ROLE default AUTO OFF MODEL_TYPE XGBOOST OBJECTIVE 'multi:softmax' PREPROCESSORS 'none' HYPERPARAMETERS DEFAULT EXCEPT (NUM_ROUND '100', NUM_CLASS '30') SETTINGS (S3_BUCKET 'amzn-s3-demo-bucket');

다음 예에서는 추론 쿼리를 사용하여 레코드 번호가 2,500보다 큰 물고기의 나이를 예측합니다. 위의 명령에서 생성된 ml_fn_abalone_xgboost_multi_predict_age 함수가 사용됩니다.

select ml_fn_abalone_xgboost_multi_predict_age(length_val, diameter, height, whole_weight, shucked_weight, viscera_weight, shell_weight)+1.5 as age from abalone_xgb where record_number > 2500;

기존 보유 모델 사용(BYOM) - 로컬 추론

Amazon Redshift 기계 학습은 로컬 추론에서 기존 보유 모델 사용(BYOM)을 지원합니다.

다음은 BYOM용 CREATE MODEL 구문에 대한 옵션을 요약한 것입니다. Amazon Redshift에서 로컬로 데이터베이스 내 추론을 위해 Amazon SageMaker와 함께 Amazon Redshift 외부에서 훈련된 모델을 사용할 수 있습니다.

로컬 추론을 위한 CREATE MODEL 구문

다음은 로컬 추론을 위한 CREATE MODEL 구문에 대한 설명입니다.

CREATE MODEL model_name FROM ('job_name' | 's3_path' ) FUNCTION function_name ( data_type [, ...] ) RETURNS data_type IAM_ROLE { default } [ SETTINGS ( S3_BUCKET 'amzn-s3-demo-bucket', | --required KMS_KEY_ID 'kms_string') --optional ];

Amazon Redshift는 현재 BYOM용으로 사전 훈련된 XGBoost, MLP 및 Linear Learner 모델만 지원합니다. 이 경로를 사용하여 로컬 추론을 위해 Amazon SageMaker에서 직접 훈련된 SageMaker Autopilot과 모델을 가져올 수 있습니다.

로컬 추론을 위한 CREATE MODEL 파라미터

model_name

모델의 이름입니다. 스키마의 모델 이름은 고유해야 합니다.

FROM ('job_name' | 's3_path' )

job_name은 Amazon SageMaker 작업 이름을 입력으로 사용합니다. 작업 이름은 Amazon SageMaker 훈련 작업 이름 또는 Amazon SageMaker Autopilot 작업 이름일 수 있습니다. 작업은 Amazon Redshift 클러스터를 소유한 동일한 AWS 계정에서 생성되어야 합니다. 작업 이름을 찾으려면 Amazon SageMaker SageMaker를 시작합니다. 훈련(Training) 드롭다운 메뉴에서 훈련 작업(Training jobs)을 선택합니다.

's3_path'는 모델을 생성할 때 사용할 .tar.gz 모델 아티팩트 파일의 S3 위치를 지정합니다.

FUNCTION function_name ( data_type [, ...] )

생성할 함수의 이름과 입력 인수의 데이터 형식입니다. 스키마 이름을 제공할 수 있습니다.

RETURNS data_type

함수에 의해 반환되는 값의 데이터 형식입니다.

IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>'}

기본 키워드를 사용하여 CREATE MODEL 명령이 실행될 때 Amazon Redshift에서 기본값으로 설정되고 클러스터와 연결된 IAM 역할을 사용하도록 합니다.

클러스터가 인증 및 권한 부여에 사용하는 IAM 역할의 Amazon 리소스 이름(ARN)을 사용합니다.

SETTINGS ( S3_BUCKET 'amzn-s3-demo-bucket', | KMS_KEY_ID 'kms_string')

S3_BUCKET 절은 중간 결과를 저장하는 데 사용되는 Amazon S3 위치를 지정합니다.

(옵션) KMS_KEY_ID 절은 Amazon Redshift가 AWS KMS 키로 서버 측 암호화를 사용하여 저장된 데이터를 보호할지 여부를 지정합니다. 전송 중인 데이터는 보안 소켓 계층(SSL)으로 보호됩니다.

자세한 내용은 사용자 안내에 따라 CREATE MODEL 단원을 참조하십시오.

로컬 추론을 위한 CREATE MODEL 예

다음 예에서는 Amazon Redshift 외부의 Amazon SageMaker에서 이전에 훈련된 모델을 생성합니다. 모델 유형은 로컬 추론을 위해 Amazon Redshift 기계 학습에서 지원되므로 다음 CREATE MODEL은 Amazon Redshift에서 로컬로 사용할 수 있는 함수를 생성합니다. SageMaker 훈련 작업 이름을 제공할 수 있습니다.

CREATE MODEL customer_churn FROM 'training-job-customer-churn-v4' FUNCTION customer_churn_predict (varchar, int, float, float) RETURNS int IAM_ROLE default SETTINGS (S3_BUCKET 'amzn-s3-demo-bucket');

모델이 생성된 후 지정된 인수 형식과 함께 customer_churn_predict 함수를 사용하여 예측할 수 있습니다.

기존 보유 모델 사용(BYOM) - 원격 추론

또한 Amazon Redshift 기계 학습은 원격 추론에서도 기존 보유 모델 사용(BYOM)을 지원합니다.

다음은 BYOM용 CREATE MODEL 구문에 대한 옵션을 요약한 것입니다.

원격 추론을 위한 CREATE MODEL 구문

다음은 원격 추론을 위한 CREATE MODEL 구문에 대한 설명입니다.

CREATE MODEL model_name FUNCTION function_name ( data_type [, ...] ) RETURNS data_type SAGEMAKER 'endpoint_name'[:'model_name'] IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' } [SETTINGS (MAX_BATCH_ROWS integer)];

원격 추론을 위한 CREATE MODEL 파라미터

model_name

모델의 이름입니다. 스키마의 모델 이름은 고유해야 합니다.

FUNCTION fn_name ( [data_type] [, ...] )

함수의 이름과 입력 인수의 데이터 형식입니다. 지원되는 모든 데이터 유형을 보려면 데이터 유형을 참조하세요. Geography, geometryhllsketch는 지원되지 않습니다.

myschema.myfunction과 같이 두 부분으로 구성된 표기법을 사용하여 스키마 내에 함수 이름을 제공할 수도 있습니다.

RETURNS data_type

함수에 의해 반환되는 값의 데이터 형식입니다. 지원되는 모든 데이터 유형을 보려면 데이터 유형을 참조하세요. Geography, geometryhllsketch는 지원되지 않습니다.

SAGEMAKER 'endpoint_name'[:'model_name']

Amazon SageMaker 엔드포인트의 이름입니다. 엔드포인트 이름이 다중 모델 엔드포인트를 가리키는 경우 사용할 모델의 이름을 추가합니다. 엔드포인트는 Amazon Redshift 클러스터와 동일한 AWS 리전에서 호스팅되어야 합니다. 엔드포인트를 찾으려면 Amazon SageMaker를 시작합니다. 추론(Inference) 드롭다운 메뉴에서 엔드포인트(Endpoints)를 선택합니다.

IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>'}

기본 키워드를 사용하여 CREATE MODEL 명령이 실행될 때 Amazon Redshift에서 기본값으로 설정되고 클러스터와 연결된 IAM 역할을 사용하도록 합니다. 또는 IAM 역할의 ARN을 지정하여 해당 역할을 사용할 수도 있습니다.

MAX_BATCH_ROWS 정수

Amazon Redshift가 단일 SageMaker 호출에 대한 단일 배치 요청으로 보내는 최대 행 수입니다. 원격 추론 기능이 있는 BYOM에만 지원됩니다. 배치의 실제 행 수는 입력 크기에 따라 다르지만 이 값보다 작거나 같아야 합니다. 이 파라미터의 최소값은 1입니다. 최대값은 INT_MAX 또는 2,147,483,647입니다. 이 파라미터는 입력 및 반환 데이터 형식이 모두 SUPER인 경우에만 필요합니다. 기본값은 INT_MAX 또는 2,147,483,647입니다.

모델이 SageMaker 엔드포인트에 배포되면 SageMaker는 Amazon Redshift에 모델 정보를 생성합니다. 그런 다음 외부 기능을 통해 추론을 수행합니다. SHOW MODEL 명령을 사용하여 Amazon Redshift 클러스터의 모델 정보를 볼 수 있습니다.

원격 추론을 위한 CREATE MODEL 사용 노트

원격 추론을 위해 CREATE MODEL을 사용하기 전에 다음 사항을 고려하세요.

  • 엔드포인트는 Amazon Redshift 클러스터를 소유한 동일한 AWS 계정에서 호스팅되어야 합니다.

  • Amazon SageMaker 엔드포인트에 Amazon Redshift의 추론 호출을 수용할 수 있는 충분한 리소스가 있는지 또는 Amazon SageMaker 엔드포인트가 자동으로 확장될 수 있는지 확인합니다.

  • SUPER 데이터 형식을 입력으로 사용하지 않는 경우 모델은 쉼표로 구분된 값(CSV) 형식의 입력만 허용하며, 이는 SageMaker의 text/CSV 콘텐츠 유형에 해당합니다.

  • SUPER 데이터 형식을 입력으로 사용하지 않는 경우 모델의 출력은 함수를 만들 때 지정한 유형의 단일 값입니다. 출력은 쉼표로 구분된 값(CSV) 형식의 text/CSV 콘텐츠 유형을 통해 SageMaker에서 이루어집니다. VARCHAR 데이터 형식은 따옴표로 묶을 수 없고 새 줄을 포함할 수 없으며 각 출력은 새 줄에 있어야 합니다.

  • 모델은 null을 빈 문자열로 수락합니다.

  • 입력 데이터 형식이 SUPER인 경우 하나의 입력 인수만 지원됩니다.

  • 입력 데이터 형식이 SUPER인 경우 반환되는 데이터 형식도 SUPER여야 합니다.

  • 입력 및 반환된 데이터 형식이 모두 SUPER인 경우 MAX_BATCH_ROWS가 필요합니다.

  • 입력 데이터 형식이 SUPER인 경우 엔드포인트 호출의 콘텐츠 유형은 MAX_BATCH_ROWS가 application/json인 경우 1, 그 외의 모든 경우에는 application/jsonlines입니다.

  • 반환 데이터 형식이 SUPER인 경우 엔드포인트 호출의 수락 유형은 MAX_BATCH_ROWS가 application/json인 경우 1, 그 외의 모든 경우에는 application/jsonlines입니다.

원격 추론을 위한 CREATE MODEL 예

다음 예에서는 SageMaker 엔드포인트를 사용하여 예측하는 모델을 생성합니다. 예측을 수행하고 CREATE MODEL 명령에서 해당 이름을 지정하기 위해 엔드포인트가 실행 중인지 확인합니다.

CREATE MODEL remote_customer_churn FUNCTION remote_fn_customer_churn_predict (varchar, int, float, float) RETURNS int SAGEMAKER 'customer-churn-endpoint' IAM_ROLE default;

다음 예는 대규모 언어 모델 모델(LLM)을 사용하여 원격 추론으로 BYOM을 생성하는 예제입니다. Amazon SageMaker Jumpstart에서 호스팅되는 LLM은 application/json 콘텐츠 유형을 수락하고 반환하며 호출당 단일 JSON을 지원합니다. 입력 및 반환 데이터 형식은 SUPER여야 하며 MAX_BATCH_ROWS는 1로 설정해야 합니다.

CREATE MODEL sample_super_data_model FUNCTION sample_super_data_model_predict(super) RETURNS super SAGEMAKER 'sample_super_data_model_endpoint' IAM_ROLE default SETTINGS (MAX_BATCH_ROWS 1);

K-MEANS를 사용한 CREATE MODEL

Amazon Redshift는 레이블이 지정되지 않은 데이터를 그룹화하는 K-Means 알고리즘을 지원합니다. 이 알고리즘은 데이터에서 그룹을 검색하려는 클러스터링 문제를 해결합니다. 분류되지 않은 데이터는 유사점과 차이점에 따라 그룹화되고 분할됩니다.

K-MEANS 구문을 사용한 CREATE MODEL

CREATE MODEL model_name FROM { table_name | ( select_statement ) } FUNCTION function_name IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' } AUTO OFF MODEL_TYPE KMEANS PREPROCESSORS 'string' HYPERPARAMETERS DEFAULT EXCEPT ( K 'val' [, ...] ) SETTINGS ( S3_BUCKET 'amzn-s3-demo-bucket', KMS_KEY_ID 'kms_string', | -- optional S3_GARBAGE_COLLECT on / off, | -- optional MAX_CELLS integer, | -- optional MAX_RUNTIME integer -- optional);

K-MEANS 파라미터를 사용한 CREATE MODEL

AUTO OFF

전처리기, 알고리즘 및 하이퍼파라미터 선택의 CREATE MODEL 자동 검색을 해제합니다.

MODEL_TYPE KMEANS

KMEANS를 사용하여 모델을 훈련하도록 지정합니다.

PREPROCESSORS 'string'

특정 열 집합에 대한 프로프로세서의 특정 조합을 지정합니다. 형식은 columnSet의 목록과 각 열 집합에 적용할 적절한 변환입니다. Amazon Redshift는 3개의 K-Means 프리프로세서, 즉 StandardScaler, MinMax 및 NumericPassthrough를 지원합니다. K-Means에 대한 사전 처리를 적용하지 않으려면 변환기로 명시적으로 NumericPassthrough를 선택합니다. 지원되는 변환기에 대한 자세한 내용은 사용자 안내 파라미터로 CREATE MODEL 섹션을 참조하세요.

K-Means 알고리즘은 유클리드 거리를 사용하여 유사성을 계산합니다. 데이터 사전 처리는 모델의 특성이 동일한 규모로 유지되고 신뢰할 수 있는 결과를 생성하도록 보장합니다.

HYPERPARAMETERS DEFAULT EXCEPT ( K 'val' [, ...] )

K-Means 파라미터의 사용 여부를 지정합니다. K-Means 알고리즘을 사용할 때는 K 파라미터를 지정해야 합니다. 자세한 내용은 Amazon SageMaker 개발자 안내서K-Means 하이퍼파라미터를 참조하세요.

다음 예에서는 K-Means용 데이터를 준비합니다.

CREATE MODEL customers_clusters FROM customers FUNCTION customers_cluster IAM_ROLE default AUTO OFF MODEL_TYPE KMEANS PREPROCESSORS '[ { "ColumnSet": [ "*" ], "Transformers": [ "NumericPassthrough" ] } ]' HYPERPARAMETERS DEFAULT EXCEPT ( K '5' ) SETTINGS (S3_BUCKET 'amzn-s3-demo-bucket'); select customer_id, customers_cluster(...) from customers; customer_id | customers_cluster -------------------- 12345 1 12346 2 12347 4 12348

예측이 포함된 CREATE MODEL

Redshift ML의 예측 모델은 Amazon Forecast를 사용하여 정확한 시계열 예측을 생성합니다. 이렇게 하면 일정 기간 동안의 과거 데이터를 사용하여 향후 이벤트를 예측할 수 있습니다. Amazon Forecast의 일반적인 사용 사례에는 소매 제품 데이터를 사용하여 재고 가격 책정 방법을 결정하고, 제조 수량 데이터를 사용하여 주문할 품목의 양을 예측하고, 웹 트래픽 데이터를 사용하여 웹 서버에 수신될 수 있는 트래픽 양을 예측하는 것이 포함됩니다.

Amazon Forecast의 할당량 한도는 Amazon Redshift 예측 모델에 적용됩니다. 예를 들어 최대 예측 수는 100개이지만 조정 가능합니다. 예측 모델을 삭제해도 Amazon Forecast의 관련 리소스가 자동으로 삭제되지는 않습니다. Redshift 클러스터를 삭제하면 관련 모델도 모두 삭제됩니다.

Forecast 모델은 현재 다음 리전에서만 사용할 수 있습니다.

  • 미국 동부(오하이오)(us-east-2)

  • 미국 동부(버지니아 북부)(us-east-1)

  • 미국 서부(오레곤)(us-west-2)

  • 아시아 태평양(뭄바이)(ap-south-1)

  • 아시아 태평양(서울)(ap-northeast-2)

  • 아시아 태평양(싱가포르)(ap-southeast-1)

  • 아시아 태평양(시드니)(ap-southeast-2)

  • 아시아 태평양(도쿄)(ap-northeast-1)

  • 유럽(프랑크푸르트)(eu-central-1)

  • 유럽(아일랜드)(eu-west-1)

예측 구문이 포함된 CREATE MODEL

CREATE [ OR REPLACE ] MODEL forecast_model_name FROM { table_name | ( select_query ) } TARGET column_name IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>'} AUTO ON MODEL_TYPE FORECAST SETTINGS ( S3_BUCKET 'amzn-s3-demo-bucket', HORIZON integer, FREQUENCY forecast_frequency [PERCENTILES '0.1', '0.5', '0.9'] )

예측 파라미터가 포함된 CREATE MODEL

forecast_model_name

모델의 이름입니다. 모델 이름은 고유해야 합니다.

FROM { table_name | ( select_query ) }

table_name 또는 훈련 데이터를 지정하는 쿼리입니다. 이는 시스템의 기존 테이블이거나 괄호로 묶인 Amazon Redshift 호환 SELECT 쿼리일 수 있습니다. 테이블 또는 쿼리 결과에는 다음과 같이 3개 이상의 열이 있어야 합니다. (1) 시계열 이름을 지정하는 varchar 열. 각 데이터 세트에는 여러 시계열이 있음, (2) 날짜/시간 열, (3) 예측할 대상 열. 이 대상 열은 int 또는 float여야 함. 3개 이상의 열이 있는 데이터 세트를 제공하는 경우 Amazon Redshift는 모든 추가 열이 관련 시계열의 일부라고 가정합니다. 참고로 관련 시계열은 int 또는 float 유형이어야 합니다. 관련 시계열에 대한 자세한 내용은 관련 시계열 데이터 세트 사용을 참조하세요.

TARGET column_name

예측 대상이 되는 열의 이름입니다. FROM 절에 열이 있어야 합니다.

IAM_ROLE { default | 'arn:aws:iam::<account-id>:role/<role-name>' }

기본 키워드를 사용하여 CREAT MODEL 명령이 실행될 때 Amazon Redshift에서 기본값으로 설정되고 클러스터와 연결된 IAM 역할을 사용하도록 합니다. 또는 IAM 역할의 ARN을 지정하여 해당 역할을 사용할 수도 있습니다.

AUTO ON

알고리즘 및 하이퍼파라미터 선택의 CREATE MODEL 자동 검색을 켭니다. 예측 모델을 생성할 때 on을 지정하면 Amazon Forecast가 데이터 세트의 각 시계열에 최적의 알고리즘 조합을 적용하는 Forecast AutoPredictor를 사용한다는 뜻입니다.

MODEL_TYPE FORECAST

FORECAST를 사용하여 모델을 훈련하도록 지정합니다.

S3_BUCKET 'amzn-s3-demo-bucket'

이전에 생성한 Amazon Simple Storage Service 버킷의 이름으로, Amazon Redshift와 Amazon Forecast 간에 훈련 데이터와 아티팩트를 공유하는 데 사용됩니다. Amazon Redshift는 훈련 데이터를 언로드하기 전에 이 버킷에 하위 폴더를 생성합니다. 훈련이 완료되면 Amazon Redshift는 생성된 하위 폴더와 해당 콘텐츠를 삭제합니다.

HORIZON 정수

예측 모델이 반환할 수 있는 최대 예측 수입니다. 모델을 학습시킨 후에는 이 정수를 변경할 수 없습니다.

FREQUENCY forecast_frequency

예측을 얼마나 세분화하여 설정할지를 지정합니다. 사용 가능한 옵션은 Y | M | W | D | H | 30min | 15min | 10min | 5min | 1min입니다. 예측 모델을 학습하는 경우 필요합니다.

PERCENTILES 문자열

예측기를 훈련하는 데 사용되는 예측 유형을 지정하는 쉼표로 구분된 문자열입니다. 예측 유형은 0.01에서 0.99까지의 사분위수(0.01 이상 증분)일 수 있습니다. 평균을 사용하여 평균 예측을 지정할 수도 있습니다. 최대 5개의 예측 유형을 지정할 수 있습니다.

다음 예는 간단한 예측 모델을 만드는 방법을 보여줍니다.

CREATE MODEL forecast_example FROM forecast_electricity_ TARGET target IAM_ROLE 'arn:aws:iam::<account-id>:role/<role-name>' AUTO ON MODEL_TYPE FORECAST SETTINGS (S3_BUCKET 'amzn-s3-demo-bucket', HORIZON 24, FREQUENCY 'H', PERCENTILES '0.25,0.50,0.75,mean', S3_GARBAGE_COLLECT OFF);

예측 모델을 생성한 후 예측 데이터가 포함된 새 테이블을 생성할 수 있습니다.

CREATE TABLE forecast_model_results as SELECT Forecast(forecast_example)

그런 다음 새 테이블을 쿼리하여 예측을 얻을 수 있습니다.

SELECT * FROM forecast_model_results