翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Clean Rooms ML モデル評価メトリクス
Clean Rooms ML は、再現率と関連性スコアを計算して、モデルのパフォーマンスを判断します。再現率は、類似データとトレーニングデータの類似性を比較します。関連性スコアは、モデルのパフォーマンスが良いかどうかではなく、オーディエンスの大きさを決定するために使用されます。
再現率は、類似セグメントがトレーニングデータとどの程度類似しているかを示すバイアスのない尺度です。リコールは、オーディエンス生成ジョブによってシードオーディエンスに含まれるトレーニングデータのサンプルからの最も類似したユーザーの割合 (デフォルトでは最も類似した 20%) です。値の範囲は 0~1 です。値が大きいほど対象者が高いことを示します。リコール値は最大ビンパーセンテージとほぼ等しい場合、オーディエンスモデルがランダム選択と同等であることを示します。
Clean Rooms ML はモデルの構築時に真陰性ユーザーを正確にラベル付けしていないため、これは精度、精度、F1 スコアよりも評価メトリクスが良いと考えています。
セグメントレベルの関連性スコアは、-1 (最も類似しない) から 1 (最も類似する) までの値を持つ類似性の尺度です。Clean Rooms ML は、さまざまなセグメントサイズの関連性スコアのセットを計算し、データに最適なセグメントサイズを決定するのに役立ちます。関連性スコアは、セグメントサイズが大きくなるにつれて単調に減少します。したがって、セグメントサイズが大きくなるにつれて、シードデータとあまり似ていない可能性があります。セグメントレベルの関連性スコアが 0 に達すると、モデルは類似セグメントのすべてのユーザーがシードデータと同じディストリビューションに属すると予測します。出力サイズを大きくすると、シードデータと同じディストリビューションからではない類似セグメントにユーザーが含まれる可能性があります。
関連性スコアは 1 つのキャンペーン内で正規化されるため、キャンペーン間の比較には使用しないでください。関連性スコアは、ビジネス成果の単一ソース証拠として使用しないでください。これは、在庫の品質、在庫タイプ、広告のタイミングなど、関連性に加えて複数の複雑な要因によって影響を受けるためです。
関連性スコアは、シードの品質を判断するために使用すべきではなく、増減できるかどうかを判断するために使用する必要があります。次の例を考えます。
-
すべて正のスコア – 類似していると予測される出力ユーザーの方が、類似セグメントに含まれるユーザーよりも多いことを示しています。これは、過去 1 か月に歯磨き粉を購入したすべての人など、大規模な市場の一部であるシードデータによく見られます。過去 1 か月に歯磨き粉を複数回購入したユーザーなど、比較的小さなシードデータを確認することをお勧めします。
-
すべての負のスコアまたは目的の類似セグメントサイズに対する負のスコア – これは、クリーンルーム ML が、目的の類似セグメントサイズに十分な類似ユーザーがないと予測することを示します。これは、シードデータが具体的すぎるか、市場が小さすぎることが原因と考えられます。シードデータに適用するフィルターの数を減らすか、市場を拡大することをお勧めします。例えば、元のシードデータがベビーカーとチャイルドシートを購入した顧客だった場合、ベビー用品を複数購入した顧客に市場を拡大できます。
トレーニングデータプロバイダーは、関連性スコアを公開するかどうか、および関連性スコアを計算するバケットビンを決定します。