機能変換の重要性 - Amazon Machine Learning

Amazon Machine Learning サービスの更新や新規ユーザーの受け入れは終了しました。このドキュメントは既存のユーザー向けに提供されていますが、更新は終了しています。詳細については、「」を参照してください。Amazon Machine Learning

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

機能変換の重要性

クレジットカードの取引が不正であるかどうかを判断することを目的とした機械学習モデルを考えてみましょう。アプリケーションの背景知識とデータ分析に基づいて、入力データに含めることが重要なデータフィールド (または機能) を決定できます。たとえば、取引金額、販売者名、住所、クレジットカード所有者の住所を学習プロセスに提供するのは重要です。一方、ランダムに生成されたトランザクション ID には情報が含まれておらず (実際にランダムであることが分かっている場合)、有用ではありません。

どのフィールドを含めるかを決めたら、これらの機能を変換して学習プロセスに役立てます。変換により、入力データにバックグラウンド経験が追加され、機械学習モデルはこの経験からのメリットを得られます。たとえば、次の販売者住所は文字列として表されます。

「123 Main Street, Seattle, WA 98101」

これ自体では、これとまったく同じ住所に関連したパターンの学習にしか役立たないので、表現力が限られています。しかし、それを構成部分に分割すると、「住所」 (123 Main Street)、「市」 (Seattle)、「州」 (WA)、および、「郵便番号」 (98101) などの追加機能を作成できます。これで、学習アルゴリズムは、より多くの異なるトランザクションをグループ化し、より広範なパターンを発見することができます。たとえば、一部の販売者の郵便番号では、他よりも多くの不正行為を経験しているかもしれません。

機能変換のアプローチと処理の詳細については、「機械学習の概念」を参照してください。