データの準備 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データの準備

注記

以前は、Amazon SageMaker Data Wrangler は SageMaker Studio Classic エクスペリエンスの一部でした。これで、新しい Studio エクスペリエンスを使用して に更新する場合、Canvas SageMaker を使用して Data Wrangler にアクセスし、最新の機能更新を受け取る必要があります。これまで Studio Classic で Data Wrangler を使用していて、Canvas で Data Wrangler に移行する場合は、Canvas アプリケーションを作成して使用できるように、追加のアクセス許可を付与する必要がある場合があります。詳細については、「(オプション) Studio Classic の Data Wrangler から Canvas SageMaker に移行する」を参照してください。

Studio Classic で Data Wrangler からデータフローを移行する方法については、「」を参照してくださいフェーズ 3: (オプション) Studio Classic から Studio にデータを移行する

Amazon Canvas で Amazon SageMaker Data Wrangler SageMaker を使用して、データの準備、特徴化、分析を行います。Data Wrangler データ準備フローを機械学習 (ML) ワークフローに統合して、コーディングをほとんどまたはまったく使わずにデータの前処理と特徴量エンジニアリングを簡素化および合理化できます。独自の Python スクリプトと変換を追加してワークフローをカスタマイズすることもできます。

  • データフロー - データフローを作成して一連の ML データ準備手順を定義します。フローを使用してさまざまなデータソースのデータセットの結合、データセットに適用する変換の数とタイプの特定、ML パイプラインに統合できるデータ準備ワークフローの定義が可能です。

  • 変換 - 文字列、ベクトル、数値データの書式設定ツールなど、標準の変換を使用してデータセットをクリーンアップおよび変換します。テキストや日付/時刻の埋め込み、カテゴリ別エンコーディングなどの変換を使用して、データを特徴化します。

  • データインサイトの生成 – Data Wrangler Data Quality and Insights レポートを使用して、データ品質を自動的に検証し、データ内の異常を検出します。

  • 分析 - フローの任意の時点でデータセット内の特徴を分析します。Data Wrangler には、散布図やヒストグラムなどの組み込みのデータ視覚化ツールや、ターゲット漏洩解析やクイックモデリングなどのデータ分析ツールが含まれており、特徴の相関性を理解できます。

  • エクスポート – データ準備ワークフローを別の場所にエクスポートします。以下は場所の例です。

    • Amazon Simple Storage Service (Amazon S3) バケット

    • Amazon SageMaker Feature Store – 機能とそれらのデータを一元化されたストアに保存します。

  • データ準備の自動化 – データフローから機械学習ワークフローを作成します。

    • Amazon SageMaker Pipelines – SageMaker データ準備、モデルトレーニング、モデルデプロイジョブを管理するワークフローを構築します。

    • シリアル推論パイプライン – データフローからシリアル推論パイプラインを作成します。これを使用して、新しいデータを予測します。

    • Python スクリプト – データとその変換をカスタムワークフロー用の Python スクリプトに保存します。