データの準備 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データの準備

機械学習におけるデータ準備とは、生データを収集、前処理、整理して、分析やモデリングに適したものにするためのプロセスを指します。このステップにより、データが機械学習アルゴリズムが効果的に学習できる形式になります。データ準備タスクには、欠損値の処理、外れ値の除去、特徴のスケーリング、カテゴリ変数のエンコード、潜在的なバイアスの評価と軽減のための措置、トレーニングセットとテストセットへのデータの分割、ラベル付け、およびその後の機械学習タスクのためにデータの品質と使いやすさを最適化するために必要なその他の変換が含まれる場合があります。

Amazon SageMaker には、モデルトレーニングの前にデータセットのクリーニング、変換、ラベル付けなどのデータ準備タスクを実行するための組み込み機能がいくつか用意されています。

  • ローコードのデータプレパレーションでは、Amazon SageMaker Data Wrangler を使用して ML データの前処理とフィーチャエンジニアリングのワークフローを定義するデータフローを作成して、コーディングをほとんどまたはまったく行わずに行うことができます。Amazon S3、Amazon Redshift、Snowflakeなどのソースからデータをインポートして、機能をエンジニアリングします。組み込みの視覚化と分析を使用して、データから洞察を得ることができます。データを準備したら、完成した出力を Amazon S3、Amazon SageMaker フィーチャストア、 SageMaker またはパイプラインにエクスポートできます。データラングラーは Amazon SageMaker Canvas と Amazon SageMaker Studio クラシックに存在します。最新機能を利用するには、 SageMaker Canvas 内で使用することをおすすめします。 SageMaker Canvas 内のデータラングラーの詳細については、を参照してください。データの準備Studio Classic 内のデータラングラーについて詳しくは、を参照してください。Amazon データラングラーで ML SageMaker データを準備

  • Apache Spark、Apache HivePresto などのオープンソースフレームワークを使用して大規模なデータ準備を行うために、Amazon SageMaker Studio Classic には Amazon EMR との統合が組み込まれています。 SageMaker Studio Classic を使用すると、ノートブックから Amazon EMR クラスターを接続またはプロビジョニングして、ペタバイト規模のデータ処理、インタラクティブ分析、機械学習を行うことができます。 SageMaker スタジオクラシックから Amazon EMR を使用する方法の詳細については、を参照してくださいAmazon EMR を使用してデータを準備する

    あるいは、Apache Spark AWS Glue ベースのサーバーレスエンジンをインタラクティブセッションで使用して、Studio Classic の複数のソースからのデータを集約、変換、準備することもできます。 SageMaker SageMakerStudio Classic AWS Glue 内でのインタラクティブセッションの使用について詳しくは、を参照してください。インタラクティブセッションを使用してデータを準備します。 AWS Glue

  • Studio で SQL を使用してデータ準備を行う場合SageMakerディストリビューションバージョン 1.6 JupyterLab 以降のデフォルトイメージには SQL 拡張が含まれています。この SQL 環境を使用すると、ユーザーはノートブックから Amazon Redshift、Athena、および Snowflake に接続できます。 JupyterLab データベーススキーマの調査、SQL クエリの記述と実行、結果の取得を行ってさらに分析することができます。pandas DataFrames この拡張機能では、オートコンプリート、構文の強調表示、クエリの書式設定が可能なため、複雑な SQL をノートブックに簡単に記述できます。 JupyterLab クエリでは複数のテーブルにまたがるデータを結合して、データサンプリング、探索的分析、クリーニング、機能エンジニアリングなどを行うことができます。の SQL エクステンションについては JupyterLab、を参照してください。Studio で SQL を使用してデータを準備します。

  • フィーチャの検出と保存については、Amazon SageMaker Feature Store にはモデルトレーニング用のフィーチャを検索、検出、取得する機能があります。また、フィーチャデータを標準化された形式で保存するための一元化されたリポジトリも用意されています。厳選されたフィーチャをフィーチャストアに保存すると、既存の機能を新しい ML プロジェクトで再利用できます。Feature Storeは、系統の追跡、統計の計算、監査記録の管理など、機能のライフサイクル全体を管理します。ML パイプラインのフィーチャデータストレージの詳細については、このガイドの「フィーチャの作成、保存、共有」セクションを参照してください。

  • バイアス検出では、Amazon SageMaker Clarify を使用してデータを分析し、複数の側面にわたる潜在的なバイアスを検出できます。たとえば、 SageMaker Clarify を使用すると、トレーニングデータに性別、人種、年齢などのグループ間の不均衡な表現やラベルの偏りがないかを検出できます。 SageMaker Clarify は、モデルをトレーニングする前にこれらのバイアスを特定して、バイアスがモデルの予測に伝播するのを防ぐのに役立ちます。 SageMaker Clarify を使用してバイアスを発見する方法については、このガイドのセクションを参照してください。トレーニング前のデータのバイアスを検出する

  • データのラベル付けについては、 SageMaker Ground Truth を使用してトレーニングデータセットのデータラベル付けワークフローを管理できます。Ground Truthをラベリングタスクに使用する方法については、でデータにラベルを付ける human-in-the-loopこのガイドのセクションを参照してください。

探索的データ分析を実行し、データ変換ステップを作成したら、 SageMaker 処理ジョブを使用して変換コードを本番稼働させ、Amazon Model Building Pipelines を使用して準備ワークフローを自動化できます。 SageMaker

SageMaker 処理 API の詳細については、「Amazon SageMaker 処理ジョブ」を参照してください。

変換ステップの自動化については、「SageMaker モデル構築パイプライン」を参照してください。