특성 저장소를 통한 사기 탐지 예제 노트북 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

특성 저장소를 통한 사기 탐지 예제 노트북

중요

Amazon SageMaker Studio 또는 Amazon SageMaker Studio Classic에서 Amazon SageMaker 리소스를 생성할 수 있도록 허용하는 사용자 지정 IAM 정책은 해당 리소스에 태그를 추가할 권한도 부여해야 합니다. Studio 및 Studio Classic은 생성한 모든 리소스에 자동으로 태그를 지정하기 때문에 리소스에 태그를 추가할 수 있는 권한이 필요합니다. IAM정책에 따라 Studio 및 Studio Classic에서는 리소스를 생성할 수 있지만 태깅은 허용하지 않는 경우 AccessDenied "“리소스를 만들려고 할 때 오류가 발생할 수 있습니다. 자세한 내용은 리소스에 태그를 지정할 SageMaker 수 있는 권한을 제공하십시오. 단원을 참조하십시오.

AWS 아마존 관리형 정책 SageMaker SageMaker 리소스를 생성할 수 있는 권한을 부여하는 경우 해당 리소스를 생성하는 동안 태그를 추가할 수 있는 권한이 이미 포함되어 있습니다.

이 페이지의 예제 코드는 예제 노트북인 Amazon SageMaker Feature Store를 통한 사기 탐지를 참조합니다. 이 가이드의 코드는 개념적이고 복사할 경우 제대로 작동하지 않으므로 Studio Classic, 노트북 인스턴스 또는 Lab Jupyter에서 이 노트북을 실행하는 것이 좋습니다.

다음을 사용하여 예제 노트북이 들어 있는 aws/ amazon-sagemaker-examples GitHub 리포지토리를 복제하십시오.

이제 SageMaker 예제 노트북이 준비되었으니 amazon-sagemaker-examples/sagemaker-featurestore 디렉터리로 이동하여 Amazon SageMaker Feature Store를 통한 사기 탐지 예제 노트북을 여십시오.

1단계: 피처 스토어 세션 설정

피처 스토어 사용을 시작하려면 세션, Boto3 SageMaker 세션, 피처 스토어 세션을 생성하세요. 또한 특성에 사용할 Amazon S3 버킷을 설정합니다. 이는 오프라인 저장소입니다. 다음 코드는 SageMaker 기본 버킷을 사용하고 여기에 사용자 지정 접두사를 추가합니다.

참고

노트북을 실행하는 데 사용하는 역할에는 AmazonSageMakerFullAccess, AmazonSageMakerFeatureStoreAccess같은 관리형 정책이 연결되어 있어야 합니다. IAM역할에 정책을 추가하는 방법에 대한 자세한 내용은 을 참조하십시오IAM역할에 정책 추가.

import boto3 import sagemaker from sagemaker.session import Session sagemaker_session = sagemaker.Session() region = sagemaker_session.boto_region_name boto_session = boto3.Session(region_name=region) role = sagemaker.get_execution_role() default_bucket = sagemaker_session.default_bucket() prefix = 'sagemaker-featurestore' offline_feature_store_bucket = 's3://{}/{}'.format(default_bucket, prefix) sagemaker_client = boto_session.client(service_name='sagemaker', region_name=region) featurestore_runtime = boto_session.client(service_name='sagemaker-featurestore-runtime', region_name=region) feature_store_session = Session(     boto_session=boto_session,     sagemaker_client=sagemaker_client,     sagemaker_featurestore_runtime_client=featurestore_runtime )

2단계: 데이터 세트와 파티션 데이터를 특성 그룹에 로드

각 특성의 데이터 프레임에 데이터를 로드합니다. 특성 그룹을 설정한 후에 이러한 데이터 프레임을 사용합니다. 사기 탐지 예제의 다음 코드에서 이러한 단계를 확인할 수 있습니다.

import numpy as np import pandas as pd import matplotlib.pyplot as plt import io s3_client = boto3.client(service_name='s3', region_name=region) fraud_detection_bucket_name = 'sagemaker-featurestore-fraud-detection' identity_file_key = 'sampled_identity.csv' transaction_file_key = 'sampled_transactions.csv' identity_data_object = s3_client.get_object(Bucket=fraud_detection_bucket_name, Key=identity_file_key) transaction_data_object = s3_client.get_object(Bucket=fraud_detection_bucket_name, Key=transaction_file_key) identity_data = pd.read_csv(io.BytesIO(identity_data_object['Body'].read())) transaction_data = pd.read_csv(io.BytesIO(transaction_data_object['Body'].read())) identity_data = identity_data.round(5) transaction_data = transaction_data.round(5) identity_data = identity_data.fillna(0) transaction_data = transaction_data.fillna(0) # Feature transformations for this dataset are applied before ingestion into FeatureStore. # One hot encode card4, card6 encoded_card_bank = pd.get_dummies(transaction_data['card4'], prefix = 'card_bank') encoded_card_type = pd.get_dummies(transaction_data['card6'], prefix = 'card_type') transformed_transaction_data = pd.concat([transaction_data, encoded_card_type, encoded_card_bank], axis=1) transformed_transaction_data = transformed_transaction_data.rename(columns={"card_bank_american express": "card_bank_american_express"})

3단계: 특성 그룹 설정

특성 그룹을 설정할 때는 고유한 이름으로 특성 이름을 사용자 지정하고 FeatureGroup클래스로 각 특성 그룹을 설정해야 합니다.

from sagemaker.feature_store.feature_group import FeatureGroup feature_group_name = "some string for a name" feature_group = FeatureGroup(name=feature_group_name, sagemaker_session=feature_store_session)

예를 들어, 사기 탐지 예제에서 두 특성 그룹은 identitytransaction입니다. 다음 코드에서는 타임스탬프를 사용하여 이름을 사용자 지정하는 방법과 이름과 세션을 전달하여 각 그룹을 설정하는 방법을 확인할 수 있습니다.

import time from time import gmtime, strftime, sleep from sagemaker.feature_store.feature_group import FeatureGroup identity_feature_group_name = 'identity-feature-group-' + strftime('%d-%H-%M-%S', gmtime()) transaction_feature_group_name = 'transaction-feature-group-' + strftime('%d-%H-%M-%S', gmtime()) identity_feature_group = FeatureGroup(name=identity_feature_group_name, sagemaker_session=feature_store_session) transaction_feature_group = FeatureGroup(name=transaction_feature_group_name, sagemaker_session=feature_store_session)

4단계: 레코드 식별자 및 이벤트 시간 특성 설정

이 단계에서는 레코드 식별자 이름과 이벤트 시간 특성 이름을 지정합니다. 이 이름은 데이터에 있는 해당 특성의 열에 매핑됩니다. 예를 들어, 사기 탐지 예제에서 관심 열은 TransactionID입니다.타임스탬프를 사용할 수 없는 경우 데이터에 EventTime을 추가할 수 있습니다. 다음 코드에서는 이러한 변수가 어떻게 설정되고 두 특성의 데이터에 EventTime이 추가되는지 확인할 수 있습니다.

record_identifier_name = "TransactionID" event_time_feature_name = "EventTime" current_time_sec = int(round(time.time())) identity_data[event_time_feature_name] = pd.Series([current_time_sec]*len(identity_data), dtype="float64") transformed_transaction_data[event_time_feature_name] = pd.Series([current_time_sec]*len(transaction_data), dtype="float64")

5단계: 특성 정의 로드

이제 특성 데이터가 포함된 데이터 프레임을 전달하여 특성 정의를 로드할 수 있습니다. 다음 사기 탐지 예제 코드에서는 load_feature_definitions을 사용하여 ID 특성과 트랜잭션 특성을 각각 로드하며, 이 함수는 각 데이터 열의 데이터 유형을 자동으로 감지합니다. 자동 탐지 대신 스키마를 사용하는 개발자의 경우, Data Wrangler에서 특성 그룹 내보내기 코드 예제를 참조하여 FeatureGroup생성 시 사용할 수 있는 FeatureDefinition으로 스키마를 로드, 매핑, 추가하는 방법을 확인하세요. 이 예제에서는 SageMaker Python 대신 사용할 수 있는 AWS SDK for Python (Boto3) 구현도 다룹니다SDK.

identity_feature_group.load_feature_definitions(data_frame=identity_data); # output is suppressed transaction_feature_group.load_feature_definitions(data_frame=transformed_transaction_data); # output is suppressed

6단계: 특성 그룹 생성

이 단계에서는 create함수를 사용하여 특성 그룹을 생성합니다. 다음 코드 예제는 사용 가능한 파라미터를 모두 표시합니다. 온라인 저장소는 기본적으로 생성되지 않으므로 활성화하려는 경우, True로 설정해야 합니다. s3_uri는 오프라인 저장소의 S3 버킷 위치입니다.

# create a FeatureGroup feature_group.create(     description = "Some info about the feature group",     feature_group_name = feature_group_name,     record_identifier_name = record_identifier_name,     event_time_feature_name = event_time_feature_name,     feature_definitions = feature_definitions,     role_arn = role,     s3_uri = offline_feature_store_bucket,     enable_online_store = True,     online_store_kms_key_id = None,     offline_store_kms_key_id = None,     disable_glue_table_creation = False,     data_catalog_config = None,     tags = ["tag1","tag2"])

사기 탐지 예제의 다음 코드는 생성 중인 두 특성 그룹 각각에 대한 최소 create호출을 보여줍니다.

identity_feature_group.create(     s3_uri=offline_feature_store_bucket,     record_identifier_name=record_identifier_name,     event_time_feature_name=event_time_feature_name,     role_arn=role,     enable_online_store=True ) transaction_feature_group.create(     s3_uri=offline_feature_store_bucket,     record_identifier_name=record_identifier_name,     event_time_feature_name=event_time_feature_name,     role_arn=role,     enable_online_store=True )

특성 그룹 생성 시 데이터를 로드하는 데 시간이 걸리며 특성 그룹이 생성될 때까지 기다려야 사용할 수 있습니다. 다음 방법을 사용하여 상태를 확인할 수 있습니다.

status = feature_group.describe().get("FeatureGroupStatus")

특성 그룹이 생성되는 동안에는 Creating응답이 수신됩니다. 이 단계가 성공적으로 완료되면 응답은 Created입니다. 가능한 다른 상태는 CreateFailed, Deleting또는 DeleteFailed입니다.

7단계: 특성 그룹 관련 작업

이제 특성 그룹을 설정했으므로 다음 작업 중 하나를 수행할 수 있습니다.

특성 그룹 설명

describe 함수를 사용하여 특성 그룹 정보를 검색할 수 있습니다.

feature_group.describe()

특성 그룹 나열

list_feature_groups 함수를 사용하여 모든 특성 그룹을 나열할 수 있습니다.

sagemaker_client.list_feature_groups()

특성 그룹에 레코드 로드하기

ingest 함수를 사용하여 특성 데이터를 로드할 수 있습니다. 특성 데이터의 데이터 프레임을 전달하고 작업자 수를 설정한 다음 반환될 때까지 기다릴지 여부를 선택합니다. 다음은 ingest함수를 사용하는 예제입니다.

feature_group.ingest(     data_frame=feature_data, max_workers=3, wait=True )

가지고 있는 각 특성 그룹에 대해 로드하려는 특성 데이터에 대해 ingest함수를 실행합니다.

특성 그룹에서 레코드를 가져오기

get_record 함수를 사용하여 레코드 식별자별로 특정 특성에 대한 데이터를 검색할 수 있습니다. 다음 예제에서는 예제 식별자를 사용하여 레코드를 검색합니다.

record_identifier_value = str(2990130) featurestore_runtime.get_record(FeatureGroupName=transaction_feature_group_name, RecordIdentifierValueAsString=record_identifier_value)

사기 탐지 예제의 응답 예시:

... 'Record': [{'FeatureName': 'TransactionID', 'ValueAsString': '2990130'},   {'FeatureName': 'isFraud', 'ValueAsString': '0'},   {'FeatureName': 'TransactionDT', 'ValueAsString': '152647'},   {'FeatureName': 'TransactionAmt', 'ValueAsString': '75.0'},   {'FeatureName': 'ProductCD', 'ValueAsString': 'H'},   {'FeatureName': 'card1', 'ValueAsString': '4577'}, ...

하이브 명령 DDL 생성

SageMaker SDKPython FeatureStore 클래스는 Hive DDL 명령을 생성하는 기능도 제공합니다. 테이블의 스키마는 특성 정의를 기반으로 생성됩니다. 열 이름은 특성 이름을 참조하며 데이터 유형은 특성 유형에 따라 유추됩니다.

print(feature_group.as_hive_ddl())

출력 예시:

CREATE EXTERNAL TABLE IF NOT EXISTS sagemaker_featurestore.identity-feature-group-27-19-33-00 (   TransactionID INT   id_01 FLOAT   id_02 FLOAT   id_03 FLOAT   id_04 FLOAT  ...

훈련 데이터 세트 구축

기능 그룹을 생성할 때 Feature Store는 자동으로 AWS Glue 데이터 카탈로그를 작성하며, 원하는 경우 이 기능을 끌 수 있습니다. 다음은 이 주제의 앞부분에서 만든 ID 및 트랜잭션 특성 그룹 모두의 특성 값을 사용하여 단일 훈련 데이터 세트를 만드는 방법을 설명합니다. 또한 다음은 Amazon Athena 쿼리를 실행하여 ID 및 트랜잭션 특성 그룹 모두에서 오프라인 저장소에 저장된 데이터를 조인하는 방법을 설명합니다.

먼저 athena_query()를 ID 및 트랜잭션 특성 그룹 모두에 사용하여 Athena 쿼리를 생성합니다. `table_name`은 피처 스토어에서 자동 AWS Glue 생성하는 테이블입니다.

identity_query = identity_feature_group.athena_query() transaction_query = transaction_feature_group.athena_query() identity_table = identity_query.table_name transaction_table = transaction_query.table_name

Athena 쿼리 작성 및 실행

이러한 기능 그룹을 사용하여 SQL 쿼리를 작성한 다음 .run() 명령으로 쿼리를 실행하고 데이터 세트를 저장할 Amazon S3 버킷 위치를 지정합니다.

# Athena query query_string = 'SELECT * FROM "'+transaction_table+'" LEFT JOIN "'+identity_table+'" ON "'+transaction_table+'".transactionid = "'+identity_table+'".transactionid' # run Athena query. The output is loaded to a Pandas dataframe. dataset = pd.DataFrame() identity_query.run(query_string=query_string, output_location='s3://'+default_s3_bucket_name+'/query_results/') identity_query.wait() dataset = identity_query.as_dataframe()

여기에서 이 데이터 세트를 사용하여 모델을 학습시킨 다음 추론을 수행할 수 있습니다.

특성 그룹 삭제

delete 함수를 사용하여 특성 그룹을 삭제할 수 있습니다.

feature_group.delete()

다음 코드 예제는 사기 탐지 예제에서 가져온 것입니다.

identity_feature_group.delete() transaction_feature_group.delete()

자세한 내용은 기능 그룹 삭제를 참조하십시오API.