翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ステップ 1. EDA を実施し、初期モデルを開発する
このステップでは、データサイエンティストは ML のユースケースとデータを理解するために、探索的データ分析 (EDA) を行います。そして、与えられたユースケースにおける問題を解決するための ML モデル (例えば、分類モデルや回帰モデル) を開発します。モデル開発中、データサイエンティストは、データ形式、データライフサイクル、中間出力の場所など、入力と出力について推測することがよくあります。これらの前提条件は、ステップ 2 のユニットテストでの検証に使用できるように文書化する必要があります。
このステップはモデル開発に重点を置いているが、データサイエンティストはしばしば、前処理、トレーニング、評価、推論のための最低限のヘルパーコードを書かなければなりません。データサイエンティストは、開発環境でこのコードを実行できるはずです。また、オプションのランタイム引数を指定して、このヘルパーコードを手動で大幅に変更しなくても他の環境でも実行できるように動的に設定できるようにすることをお勧めします。これにより、ステップ 2 および 3 でモデルとパイプラインの統合が加速されます。例えば、生データを読み取るコードは、一貫した方法でデータを前処理できるように、関数にカプセル化されるべきです。
ML モデルとそのヘルパーコードを開発するには、「scikit-learn