データ準備

注記

以前は、Amazon SageMaker Data Wrangler は SageMaker Studio Classic エクスペリエンスの一部でした。新しい Studio エクスペリエンスを使用して更新する場合は、SageMaker Canvas を使用して Data Wrangler にアクセスし、最新の機能更新を受け取る必要があります。Studio Classic でこれまで Data Wrangler を使用しており、Canvas の Data Wrangler に移行する場合は、Canvas アプリケーションを作成して使用できるように追加の権限を付与する必要が生じる場合があります。詳細については、「(オプション) Studio Classic の Data Wrangler から SageMaker Canvas に移行する」を参照してください。

Studio Classic の Data Wrangler からデータフローを移行する方法については、「(オプション) Studio Classic から Studio にデータを移行する」を参照してください。

Amazon SageMaker Canvas で Amazon SageMaker Data Wrangler を使用して、データの準備、特徴付け、分析を行います。Data Wrangler データ準備フローを機械学習 (ML) ワークフローに統合して、コーディングをほとんどまたはまったく使わずにデータの前処理と特徴量エンジニアリングを簡素化および合理化できます。独自の Python スクリプトと変換を追加してワークフローをカスタマイズすることもできます。

データフロー - データフローを作成して一連の ML データ準備手順を定義します。フローを使用してさまざまなデータソースのデータセットの結合、データセットに適用する変換の数とタイプの特定、ML パイプラインに統合できるデータ準備ワークフローの定義が可能です。
変換 - 文字列、ベクトル、数値データの書式設定ツールなど、標準の変換を使用してデータセットをクリーンアップおよび変換します。テキストや日付/時刻の埋め込み、カテゴリ別エンコーディングなどの変換を使用して、データを特徴化します。
データインサイトの生成 – Data Wrangler のデータ品質とインサイトレポートにより、データ品質を自動的に検証し、データの異常を検出します。
分析 - フローの任意の時点でデータセット内の特徴を分析します。Data Wrangler には、散布図やヒストグラムなどの組み込みのデータ視覚化ツールや、ターゲット漏洩解析やクイックモデリングなどのデータ分析ツールが含まれており、特徴の相関性を理解できます。
エクスポート – データ準備ワークフローを別の場所にエクスポートします。以下は場所の例です。
- Amazon Simple Storage Service (Amazon S3) バケット
- Amazon SageMaker Feature Store – 機能とそのデータを一元化されたストアに保存します。
データ準備の自動化 – データフローから機械学習ワークフローを作成します。
- Amazon SageMaker Pipelines – SageMaker AI データの準備、モデルトレーニング、モデルデプロイジョブを管理するワークフローを構築します。
- シリアル推論パイプライン – データフローからシリアル推論パイプラインを作成します。これを使用して、新しいデータを予測します。
- Python スクリプト – データとその変換をカスタムワークフロー用の Python スクリプトに保存します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

削除したサンプルデータセットを再インポートする

データセットを作成する