機能変換の重要性 - Amazon Machine Learning

Amazon Machine Learning サービスの更新や、その新しいユーザーの受け入れは行っていません。このドキュメントは既存のユーザー向けに提供されていますが、更新は終了しています。詳細については、「Amazon Machine Learning とは」を参照してください。

機能変換の重要性

クレジットカードの取引が不正であるかどうかを判断することを目的とした機械学習モデルを考えてみましょう。アプリケーションの背景知識とデータ分析に基づいて、入力データに含めることが重要なデータフィールド (または機能) を決定できます。たとえば、取引金額、販売者名、住所、クレジットカード所有者の住所を学習プロセスに提供するのは重要です。一方、ランダムに生成されたトランザクション ID には情報が含まれておらず (実際にランダムであることが分かっている場合)、有用ではありません。

どのフィールドを含めるかを決めたら、これらの機能を変換して学習プロセスに役立てます。変換により、入力データにバックグラウンド経験が追加され、機械学習モデルはこの経験からのメリットを得られます。たとえば、次の販売者住所は文字列として表されます。

「123 Main Street, Seattle, WA 98101」

これ自体では、これとまったく同じ住所に関連したパターンの学習にしか役立たないので、表現力が限られています。しかし、それを構成部分に分割すると、「住所」 (123 Main Street)、「市」 (Seattle)、「州」 (WA)、および、「郵便番号」 (98101) などの追加機能を作成できます。これで、学習アルゴリズムは、より多くの異なるトランザクションをグループ化し、より広範なパターンを発見することができます。たとえば、一部の販売者の郵便番号では、他よりも多くの不正行為を経験しているかもしれません。

機能変換のアプローチと処理の詳細については、「機械学習の概念」を参照してください。