ステップ 1. EDA を実施し、初期モデルを開発する - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ステップ 1. EDA を実施し、初期モデルを開発する

このステップでは、データサイエンティストは ML のユースケースとデータを理解するために、探索的データ分析 (EDA) を行います。そして、与えられたユースケースにおける問題を解決するための ML モデル (例えば、分類モデルや回帰モデル) を開発します。モデル開発中、データサイエンティストは、データ形式、データライフサイクル、中間出力の場所など、入力と出力について推測することがよくあります。これらの前提条件は、ステップ 2 のユニットテストでの検証に使用できるように文書化する必要があります。

このステップはモデル開発に重点を置いているが、データサイエンティストはしばしば、前処理、トレーニング、評価、推論のための最低限のヘルパーコードを書かなければなりません。データサイエンティストは、開発環境でこのコードを実行できるはずです。また、オプションのランタイム引数を指定して、このヘルパーコードを手動で大幅に変更しなくても他の環境でも実行できるように動的に設定できるようにすることをお勧めします。これにより、ステップ 2 および 3 でモデルとパイプラインの統合が加速されます。例えば、生データを読み取るコードは、一貫した方法でデータを前処理できるように、関数にカプセル化されるべきです。

ML モデルとそのヘルパーコードを開発するには、「scikit-learn」、「XGBoost」、「PyTorch」、「Keras」、「TensorFlow」などのフレームワークから始めることをお勧めします。たとえば、scikit-learn は Python で書かれた無料の ML ライブラリです。オブジェクトに統一された API 規則を定めており、Estimator、Predictor、Transformer、model という 4 つの主要なオブジェクトが含まれています。これらのオブジェクトは軽量データ変換に対応し、ラベルや特徴量エンジニアリングをサポートし、前処理とモデリングのステップをカプセル化します。これらのオブジェクトは、ボイラープレートコードの拡散を防ぎ、検証データやテストデータがトレーニングデータセットに漏れるのを防ぐのに役立ちます。同様に、すべての ML フレームワークには重要な ML アーティファクトが独自に実装されているため、ML モデルを開発するときは、選択したフレームワークの API 規則に従うことをお勧めします。