IP Insights - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

IP Insights

Amazon SageMaker IP Insights는 IPv4 주소에 대한 사용 패턴을 학습하는 비지도 학습 알고리즘입니다. IPv4 주소와 여러 엔터티(예: 사용자 ID 또는 계정 번호) 간 연결을 캡처하도록 설계되어 있습니다. 이 알고리즘을 사용하여 예를 들어, 변칙적인 IP 주소에서 웹 서비스에 로그인하려고 하는 사용자를 식별할 수 있습니다. 또는 비정상적인 IP 주소에서 컴퓨팅 리소스를 생성하려고 하는 계정을 식별할 수도 있습니다. 훈련된 IP Insight 모델은 실시간 예측을 위해 엔드포인트에서 호스팅하거나 배치 변환 처리를 위해 사용할 수 있습니다.

SageMaker IP Insights는 과거 데이터(엔터티, IPv4 주소)를 페어로 수집하고 각 엔터티의 IP 사용량 패턴을 학습합니다. (엔터티, IPv4 주소) 이벤트로 쿼리하는 경우 SageMaker IP Insights 모델은 이벤트 패턴의 비정상성을 추론하는 점수를 반환합니다. 예를 들어, 사용자가 IP 주소에서 로그인하려고 하는 경우 IP Insights 점수가 충분히 높으면 웹 로그인 서버가 멀티 팩터 인증(Multi-Factor Authentication) 시스템을 트리거하도록 결정할 수 있습니다. 고급 솔루션에서는 다른 기계 학습 모델로 IP Insights 점수를 제공할 수 있습니다. 예를 들어, IP Insight 점수를 다른 특징과 결합해 다른 보안 시스템의 결과(예: Amazon GuardDuty의 결과) 순위를 지정할 수 있습니다.

또한 SageMaker IP Insights 알고리즘은 IP 주소의 벡터 표현(임베딩이라고 함)을 학습할 수 있습니다. IP 주소에서 관측 정보를 사용하는 다운스트림 기계 학습 작업에서 벡터 인코딩 임베딩을 특징으로 사용할 수 있습니다. 예를 들어, 벡터 인코딩 임베딩은 클러스터링 및 시각화 작업에서 IP 주소 간 유사성을 측정하는 등 여러 작업에서 사용할 수 있습니다.

IP Insights 알고리즘의 입력/출력 인터페이스

훈련 및 검증

SageMaker IP Insights 알고리즘은 훈련 및 검증 데이터 채널을 지원합니다. 이 알고리즘은 선택적 validation 채널을 사용하여 미리 정의된 네거티브 샘플링 전략에 대한 곡선 아래 면적(AUC) 점수를 계산합니다. AUC 지표는 모델이 포지티브 및 네거티브 및 포지티브 샘플 간에 얼마나 잘 구분하는지를 검증합니다. 훈련 및 검증 데이터 콘텐츠 유형은 text/csv 형식이어야 합니다. CSV 데이터의 첫 번째 열은 엔터티에 대한 고유한 식별자를 제공하는 불투명 문자열입니다. 두 번째 열은 10진수 점 표기법으로 표시된 IPv4 주소입니다. IP Insights는 현재 파일 모드만 지원합니다. 자세한 내용 및 몇 가지 예제는 IP Insights 훈련 데이터 형식 단원을 참조하십시오.

추론

추론의 경우 IP Insights는 text/csv, application/jsonapplication/jsonlines 데이터 콘텐츠 유형을 지원합니다. SageMaker에서 제공하는 추론의 공통 데이터 형식에 대한 자세한 정보는 추론을 위한 공통 데이터 형식을(를) 참조하십시오. IP Insights 추론은 application/json 또는 application/jsonlines 형식의 출력을 반환합니다. 출력 데이터의 각 레코드에는 각 입력 데이터 포인트에 대한 해당 dot_product(또는 호환성 점수)가 포함되어 있습니다. 자세한 내용 및 몇 가지 예제는 IP Insights 추론 데이터 형식 단원을 참조하십시오.

IP Insights 알고리즘에 대한 EC2 인스턴스 권장 사항

SageMaker IP Insights 알고리즘은 GPU 및 CPU 인스턴스 둘 다에서 실행할 수 있습니다. 훈련 작업에는 GPU 인스턴스를 사용하는 것이 좋습니다. 그러나 큰 훈련 데이터 세트를 사용하는 특정 워크로드의 경우 분산된 CPU 인스턴스는 훈련 비용을 줄일 수 있습니다. 추론에는 CPU 인스턴스를 사용하는 것이 좋습니다. IP Insights는 P2, P3, G4dn 및 G5 GPU 패밀리를 지원합니다.

IP Insights 알고리즘에 대한 GPU 인스턴스

IP Insights는 사용 가능한 모든 GPU를 지원합니다. 훈련 속도를 높여야 하는 경우 단일 GPU 인스턴스(예: ml.p3.2xlarge)로 시작한 다음 다중 GPU 환경(예: ml.p3.8xlarge 및 ml.p3.16xlarge)으로 이전하는 것이 좋습니다. 다중 GPU는 자체 내에서 훈련 데이터의 미니 배치를 자동으로 나눕니다. 단일 GPU에서 다중 GPU로 전환하는 경우 mini_batch_size는 사용되는 GPU 수로 균일하게 나뉩니다. 이를 보상하기 위해 mini_batch_size의 값을 늘리려고 할 수 있습니다.

IP Insights 알고리즘에 대한 CPU 인스턴스

추천 CPU 인스턴스 유형은 주로 인스턴스의 사용 가능한 메모리 및 모델 크기에 따라 달라집니다. 모델 크기는 vector_dimnum_entity_vectors 이렇게 두 가지 하이퍼파라미터로 결정됩니다. 지원되는 최대 모델 크기는 8GB입니다. 다음 표에는 다양한 모델 크기에 대한 이러한 입력 파라미터를 기반으로 배포할 수 있는 일반적인 EC2 인스턴스 유형이 나열되어 있습니다. 표 1에서 첫 번째 열의 vector_dim 값 범위는 32~2048이고 첫 번째 행의 num_entity_vectors 값 범위는 10,000~50,000,000입니다.

vector_dim \ num_entity_vectors. 10,000개 50,000 100,000건 500,000 1,000,000 5,000,000 10,000,000 50,000,000
32

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.2xlarge ml.m5.4xlarge

64

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.2xlarge

128

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.4xlarge

256

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

512

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge

1024

ml.m5.large

ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

2048

ml.m5.large

ml.m5.large ml.m5.xlarge ml.m5.xlarge

mini_batch_size, num_ip_encoder_layers, random_negative_sampling_rateshuffled_negative_sampling_rate 하이퍼파라미터의 값 역시 필요한 메모리의 양에 영향을 줍니다. 이러한 값이 크면 일반 인스턴스 유형보다 더 큰 인스턴스 유형을 사용해야 할 수 있습니다.

IP Insights 샘플 노트북

SageMaker IP Insights 알고리즘을 훈련시키고 이를 사용하여 추론을 수행하는 방법을 보여주는 샘플 노트북은 SageMaker IP Insights 알고리즘 소개를 참조하십시오. SageMaker에서 예제 실행에 사용할 수 있는 Jupyter 노트북 인스턴스를 생생하고 이 인스턴스에 액세스하는 방법은 아마존 SageMaker 노트북 인스턴스 섹션을 참조하세요. 노트북 인스턴스를 생성한 후 SageMaker 예제 탭을 선택하여 모든 SageMaker 예제 목록을 표시합니다. 노트북을 열려면 사용 탭을 선택한 후 Create copy(사본 생성)를 선택합니다.