IP Insights - Amazon SageMaker

IP Insights

アマゾン SageMaker IP Insights は、IPv4 アドレスの使用パターンを学習する教師なし学習アルゴリズムです。このアルゴリズムは、IPv4 アドレスと、ユーザー ID やアカウント番号などの各種エンティティとの間の関連付けをキャプチャするように設計されています。たとえば、異常な IP アドレスからウェブサービスにログインしようとしているユーザーを識別するために使用できます。あるいは、異常な IP アドレスからコンピューティングリソースを作成しようとしているアカウントを識別するために使用することもできます。トレーニング済みの IP Insight モデルは、リアルタイムの予測を行うためにエンドポイントでホストしたり、バッチ変換の処理で使用したりできます。

SageMaker IP Insights は、履歴データを (エンティティ、IPv4 アドレス) のペアとして取り込み、各エンティティの IP 使用パターンを学習します。(エンティティ、IPv4 アドレス) イベントを使用してクエリが実行されると、クエリが実行されると、そのイベントのクエリが実行されると、 SageMaker IP Insights モデルは、そのイベントのパターンがどの程度異常であるかを推測するスコアを返します。たとえば、ユーザーが IP アドレスからログインしようとしたときに、IP Insights のスコアが十分に高ければ、ウェブログインサーバーは多要素認証システムの起動を決定する可能性があります。より高度なソリューションでは、IP Insights のスコアを他の機械学習モデルに取り込むことができます。たとえば、IP Insight スコアを他の機能と組み合わせて、次のような別のセキュリティシステムの結果をランク付けできます。アマゾン GuardDuty

- SageMaker IP Insights アルゴリズムは、IP アドレスのベクトル表現も学習できます。埋め。ベクトルとしてエンコードされた埋め込みを、IP アドレスで観測された情報を使用するダウンストリームの機械学習タスクの特徴として使用することができます。たとえば、クラスタリングに含まれる IP アドレス間の類似性を測定するタスクや、視覚化タスクなどに使用できます。

IP Insights アルゴリズムの入出力インターフェイス

トレーニングおよび検証

- SageMaker IP Insights アルゴリズムは、トレーニングと検証のデータチャネルをサポートします。オプションの検証チャネルを使用して area-under-curve 定義済みのネガティブ・サンプリング・ストラテジーの(AUC)スコア。AUC メトリクスは、モデルが正のサンプルと負のサンプルをどの程度区別しているかを検証します。トレーニングおよび検証データのコンテンツタイプは、text/csv 形式である必要があります。CSV データの最初の列は、エンティティの一意の識別子を提供する不透明な文字列です。2 列目は、ドット区切りの 10 進数表記の IPv4 アドレスです。IP Insights は現在、ファイルモードのみをサポートしています。詳細および例については、IP Insights トレーニングデータの形式を参照してください。

推論

IP Insights は推論のために、text/csvapplication/json、および application/jsonlines データコンテンツタイプをサポートします。 SageMaker から提供される推論に共通するデータ形式の詳細については、推論の共通データ形式を参照してください。IP Insights 推論は、application/json または application/jsonlines として形式設定された出力を返します。出力データの各レコードには、各入力データポイントに対応する dot_product (または互換性スコア) が含まれています。詳細および例については、IP Insights 推論データの形式を参照してください。

IP Insights アルゴリズムの EC2 インスタンスに関する推奨事項

- SageMaker IP Insights アルゴリズムは、GPU インスタンスと CPU インスタンスの両方で実行できます。トレーニングジョブの場合は、GPU インスタンスを使用することをお勧めします。ただし、大規模なトレーニングデータセットを使用する特定のワークロードでは、分散型の CPU インスタンスを使用すると、トレーニングコストを削減できる可能性があります。推論の場合は、CPU インスタンスを使用することをお勧めします。IP Insights は、P2、P3、G4dn、および G5 GPU ファミリをサポートします。

IP Insights アルゴリズムの GPU インスタンス

IP Insights は、使用可能な GPU をすべてサポートします。トレーニングを加速させる必要がある場合は、ml.p3.2xlarge などの単一 GPU インスタンスから始めて、ml.p3.8xlarge や ml.p3.16xlarge などのマルチ GPU 環境に移行することをお勧めします。マルチ GPU は、ミニバッチのトレーニングデータを自動的に分割します。単一の GPU から複数の GPU に切り替えると、mini_batch_size が、使用される GPU の数だけ均等に分割されます。これを補うために、mini_batch_size の値を大きくすることをお勧めします。

IP Insights アルゴリズムの CPU インスタンス

お勧めする CPU インスタンスのタイプは、インスタンスの使用可能なメモリとモデルのサイズによって大きく異なります。モデルサイズは、vector_dimnum_entity_vectors の 2 つのハイパーパラメータによって決まります。サポートされる最大モデルサイズは 8 GB です。次の表に、さまざまなモデルサイズの入力パラメータに基づいてデプロイする一般的な EC2 インスタンスのタイプをリストしてあります。表 1 で、最初の列の vector_dim の値は 32~2048 の範囲で、最初の行の num_entity_vectors の値は 10,000~50,00,000 の範囲です。

vector_dim \ num_entity_vectors. 10,000 50,000 100,000 500,000 1,000,000 5,000,000 10,000,000 50,000,000
32

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.2xlarge ml.m5.4xlarge

64

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.2xlarge

128

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.4xlarge

256

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

512

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge

1024

ml.m5.large

ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

2048

ml.m5.large

ml.m5.large ml.m5.xlarge ml.m5.xlarge

mini_batch_sizenum_ip_encoder_layersrandom_negative_sampling_rate、および shuffled_negative_sampling_rate ハイパーパラメータの値も、必要なメモリ量に影響します。これらの値が大きい場合は、通常よりも大きいインスタンスタイプを使用しなければならない可能性があります。

IP Insights サンプルノートブック

トレーニングの仕方を示すサンプルノートについては SageMaker IP Insights アルゴリズムとそれを使用して推論を実行するには、の概要 SageMakerIP Insights アルゴリズム。 SageMaker でサンプルの実行に使用できる Jupyter ノートブックインスタンスを作成してアクセスする方法については、「Amazon SageMaker ノートブックインスタンスを使用する」を参照してください。ノートブックインスタンスを作成したら、SageMaker 例タブをクリックすると、すべてのリストが表示されます SageMaker の例。ノートブックを開くには、その [Use (使用)] タブを選択し、[Create copy (コピーを作成)] を選択します。