AWS Clean Rooms ML - AWS Clean Rooms

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Clean Rooms ML

AWS Clean Rooms ML

AWS Clean Rooms ML は、2 つの当事者間でデータを共有しなくても、データ内の類似ユーザーを識別するためのプライバシー保護方法を提供します。最初の関係者はトレーニングデータを に持ち込んで、類似モデルを作成して設定し、コラボレーションに関連付ける AWS Clean Rooms ことができます。次に、シードデータがコラボレーションに取り込まれ、トレーニングデータに似た類似セグメントが作成されます。

この動作の詳細な説明については、「クロスアカウントジョブ」を参照してください。

  • トレーニングデータプロバイダー – トレーニングデータを提供し、類似モデルを作成および設定し、その類似モデルをコラボレーションに関連付ける関係者。

  • シードデータプロバイダー – シードデータを提供し、類似セグメントを生成し、その類似セグメントをエクスポートする関係者。

  • トレーニングデータ – 類似モデルの生成に使用されるトレーニングデータプロバイダーのデータ。トレーニングデータは、ユーザーの行動の類似性を測定するために使用されます。

    トレーニングデータには、ユーザー ID、項目 ID、タイムスタンプ列が含まれている必要があります。オプションで、トレーニングデータには数値特徴量またはカテゴリ別特徴量として他のインタラクションを含めることができます。インタラクションの例としては、視聴した動画のリスト、購入したアイテム、読んだ記事などがあります。

  • シードデータ – 類似セグメントの作成に使用されるシードデータプロバイダーのデータ。シードデータは直接提供することも、 AWS Clean Rooms クエリの結果から取得することもできます。類似セグメントの出力は、トレーニングデータに含まれるシードユーザーに最も近いユーザーの集合です。

  • 類似モデル – 他のデータセット内の類似ユーザーを見つけるために使用されるトレーニングデータの機械学習モデル。

    を使用する場合API、オーディエンスモデルという用語は類似モデルと同等に使用されます。例えば、 を使用して類似モデルCreateAudienceModelAPIを作成します。

  • 類似セグメント — シードデータに最も近いトレーニングデータのサブセット。

    を使用する場合はAPI、 を使用して類似セグメントを作成しますStartAudienceGenerationJobAPI。

トレーニングデータプロバイダーのデータがシードデータプロバイダーと共有されることはなく、シードデータプロバイダーのデータがトレーニングデータプロバイダーと共有されることもありません。類似セグメントの出力はトレーニングデータプロバイダーと共有されますが、シードデータプロバイダーと共有されることはありません。

類似モデルの使用の詳細については、次のトピックを参照してください。

AWS Clean Rooms ML の仕組み

AWS Clean Rooms ML の仕組みの概要。

Clean Rooms ML では、トレーニングデータプロバイダーとシードデータプロバイダーの 2 つの関係者が順番に で作業 AWS Clean Rooms して、データをコラボレーションに取り込む必要があります。トレーニングデータプロバイダーが最初に完了しなければならないワークフローは次のとおりです。

  1. トレーニングデータプロバイダーのデータは、ユーザーアイテムインタラクション AWS Glue のデータカタログテーブルに保存する必要があります。少なくとも、トレーニングデータにはユーザー ID 列、インタラクション ID 列、タイムスタンプ列が含まれている必要があります。

  2. トレーニングデータプロバイダーは、トレーニングデータを に登録します AWS Clean Rooms。

  3. トレーニングデータプロバイダーは、複数のシードデータプロバイダーと共有できる類似モデルを作成します。類似モデルはディープニューラルネットワークであり、トレーニングに最大 24 時間かかることがあります。自動的に再トレーニングされるわけではないため、モデルを毎週再トレーニングすることをお勧めします。

  4. トレーニングデータプロバイダーは、関連メトリクスを共有するかどうかや、出力セグメントの Amazon S3 ロケーションなど、類似モデルの設定を行います。トレーニングデータプロバイダーは、1 つの類似モデルから複数の設定済み類似モデルを作成できます。

  5. トレーニングデータプロバイダーは、設定されたオーディエンスモデルをシードデータプロバイダーと共有されているコラボレーションに関連付けます。

シードデータプロバイダーが次に完了しなければならないワークフローは次のとおりです。

  1. シードデータプロバイダーのデータは Amazon S3 バケットに保存でき、クエリの結果から取得できます。

  2. シードデータプロバイダーは、トレーニングデータプロバイダーと共有するコラボレーションを開きます。

  3. シードデータプロバイダーは、コラボレーションページの Clean Rooms ML タブから類似セグメントを作成します。

  4. シードデータプロバイダーは、関連性メトリクスが共有されていれば、それを評価し、 AWS Clean Roomsの外部で使用するために類似セグメントをエクスポートできます。