線形学習の仕組み - アマゾン SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

線形学習の仕組み

線形学習者アルゴリズムの実装には、事前処理、学習、検証という 3 つのステップがあります。

ステップ 1: 前処理

正規化 (特徴スケーリング) は、特定の損失関数の重要な前処理ステップであり、データセットでトレーニングされるモデルが単一特徴のウェイトで占有されないようにします。アマゾン SageMaker 線形学習アルゴリズムには、この前処理ステップを支援する正規化オプションがあります。正規化がオンになっている場合、アルゴリズムはまず小さなサンプルデータを調べて、各特徴および各ラベルの平均値と標準偏差を学習します。次に、完全なデータセット内の各特徴は、平均が 0 になるようにシフトされ、単位標準偏差を持つようにスケーリングされます。

注記

最良の結果を得るには、トレーニングの前にデータをシャッフルします。シャッフルされていないデータを使用したトレーニングでは、トレーニングが失敗する場合があります。

線形学習者アルゴリズムで、 normalize_data および normalize_label ハイパーパラメータをそれぞれ使用して、特徴データとラベルを正規化するかどうかを設定できます。正規化は、回帰の特徴とラベルの両方でデフォルトで有効になっています。バイナリ分類では正規化できるのは特徴のみであり、これがデフォルトの動作です。

ステップ 2: トレーニング

線形学習者アルゴリズムでは、確率的勾配降下法 (SGD) の分散実装を使用してトレーニングを行います。最適化プロセスを制御するには、最適化アルゴリズムを選択します。たとえば、Adam、AdaGrad、確率的勾配降下法、またはその他の最適化アルゴリズムを使用するように選択できます。また、モーメンタム、学習レート、学習レートスケジュールなどのハイパーパラメータも指定します。どのアルゴリズムまたはハイパーパラメータの値を使用すればよいかわからない場合は、大部分のデータセットで機能するデフォルトを選択してください。

トレーニング中は、目標がそれぞれ異なる複数のモデルを同時に最適化します。たとえば、L1 または L2 の正規化を変化させて、さまざまなオプティマイザ設定を試します。

ステップ 3: しきい値を検証および設定する

複数のモデルを並行してトレーニングする場合、モデルは検証セットに対して評価され、トレーニングが完了すると最適なモデルが選択されます。回帰では、検証セットで最善の損失を達成するモデルが最適なモデルです。分類では、検証セットのサンプルを使用して分類しきい値を調整します。選択されている最適なモデルは、検証セットで最良のバイナリ分類選択基準を達成するモデルです。そのような基準には、F1 の測定、精度、クロスエントロピー損失などがあります。

注記

アルゴリズムで検証セットが指定されていない場合は、最適なモデルを評価して選択することはできません。並列トレーニングとモデル選択を利用するには、アルゴリズムに検証セットを指定する必要があります。