Amazon Data Wrangler で ML SageMaker データを準備する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Data Wrangler で ML SageMaker データを準備する

重要

Amazon SageMaker Data Wrangler は Amazon Canvas SageMaker に統合されました。Canvas の新しい Data Wrangler SageMaker エクスペリエンスでは、自然言語インターフェイスを使用して、ビジュアルインターフェイスに加えてデータを探索および変換できます。Canvas の Data Wrangler SageMaker の詳細については、「」を参照してくださいデータの準備

Amazon SageMaker Data Wrangler (Data Wrangler) は、データをインポート、準備、変換、特徴量化、分析するための end-to-end ソリューションを提供する Amazon SageMaker Studio Classic の機能です。Data Wrangler データ準備フローを機械学習 (ML) ワークフローに統合して、コーディングをほとんどまたはまったく使わずにデータの前処理と特徴量エンジニアリングを簡素化および合理化できます。独自の Python スクリプトと変換を追加してワークフローをカスタマイズすることもできます。

Data Wrangler は、機械学習アプリケーションのためのデータ分析および準備に役立つ以下のコア機能を提供します。

  • インポート — Amazon Simple Storage Service (Amazon S3) に接続してデータをインポートします。 Amazon Athena (Athena)、Amazon Redshift、Snowflake、Databricks。

  • データフロー - データフローを作成して一連の ML データ準備手順を定義します。フローを使用してさまざまなデータソースのデータセットの結合、データセットに適用する変換の数とタイプの特定、ML パイプラインに統合できるデータ準備ワークフローの定義が可能です。

  • 変換 - 文字列、ベクトル、数値データの書式設定ツールなど、標準の変換を使用してデータセットをクリーンアップおよび変換します。テキストや日付/時刻の埋め込み、カテゴリ別エンコーディングなどの変換を使用して、データを特徴化します。

  • データインサイトの生成 – Data Wrangler のデータインサイトと品質レポートにより、データ品質を自動的に検証し、データの異常を検出します。

  • 分析 - フローの任意の時点でデータセット内の特徴を分析します。Data Wrangler には、散布図やヒストグラムなどの組み込みのデータ視覚化ツールや、ターゲット漏洩解析やクイックモデリングなどのデータ分析ツールが含まれており、特徴の相関性を理解できます。

  • エクスポート – データ準備ワークフローを別の場所にエクスポートします。以下は場所の例です。

    • Amazon Simple Storage Service (Amazon S3) バケット

    • Amazon SageMaker Pipelines – Pipelines を使用してモデルのデプロイを自動化します。変換したデータをパイプラインに直接エクスポートできます。

    • Amazon SageMaker Feature Store – 機能とそれらのデータを一元化されたストアに保存します。

    • Python スクリプト – データとその変換をカスタムワークフロー用の Python スクリプトに保存します。

Data Wrangler の使用を始める場合は、「Data Wrangler の開始方法」を参照してください。

重要

Data Wrangler は Jupyter Lab バージョン 1 () をサポートしなくなりましたJL1。最新の機能や更新を利用するには、Jupyter Lab バージョン 3 に更新します。アップグレードの詳細については、「コンソールからアプリケーションの JupyterLab バージョンを表示および更新する」を参照してください。

重要

このガイドの情報と手順では、最新バージョンの Amazon SageMaker Studio Classic を使用します。Studio Classic を最新バージョンに更新する方法については、「」を参照してくださいAmazon SageMaker Studio Classic UI の概要

Studio Classic バージョン 1.3.0 以降を使用する必要があります。次の手順を使用して Amazon SageMaker Studio Classic を開き、実行中のバージョンを確認します。

Studio Classic を開いてそのバージョンを確認するには、次の手順を参照してください。

  1. のステップを使用して前提条件、Amazon SageMaker Studio Classic から Data Wrangler にアクセスします。

  2. Studio Classic の起動に使用するユーザーの横にある「アプリの起動」を選択します。

  3. [Studio] を選択します。

  4. Studio Classic がロードされたら、ファイル を選択し、次に新しい を選択し、次にターミナル を選択します。

    ステップ 4 で説明した Studio Classic コンテキストメニューオプション。
  5. Studio Classic を起動したら、ファイル を選択し、次に新しい を選択し、次にターミナル を選択します。

  6. を入力してcat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"、Studio Classic インスタンスのバージョンを出力します。Snowflake を使用するには、Studio Classic バージョン 1.3.0 が必要です。

    Studio Classic で、ステップ 6 の コマンドをコピーして貼り付けたターミナルウィンドウが開かれました。

Amazon SageMaker Studio Classic は、 内から更新できます。 AWS Management Console。 Studio Classic の更新の詳細については、「」を参照してくださいAmazon SageMaker Studio Classic UI の概要