データセットを作成する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットを作成する

SageMaker Canvas の Data Wrangler フローまたはデータフローを使用して、データ準備パイプラインを作成および変更します。5 GB を超えるデータセットには Data Wrangler を使用することをお勧めします。

開始するには、次の手順を使用してデータをデータフローにインポートします。

  1. SageMaker Canvas を開きます。

  2. 左側のナビゲーションで、[Data Wrangler] を選択します。

  3. [インポートして準備] を選択します。

  4. ドロップダウンメニューから、[表形式] または [画像] を選択します。

  5. [データソースの選択] では、データソースを選択し、インポートするデータを選択します。最大 30 個のファイルまたは 1 つのフォルダを選択できます。Canvas にインポート済みのデータセットがある場合は、ソースとして [Canvas データセット] を選択します。それ以外の場合は、Amazon S3 や Snowflake などのデータソースに接続し、データを参照します。データソースへの接続またはデータのインポートについては、次のページを参照してください。

  6. インポートするデータを選択したら、[次へ] を選択します。

  7. (オプション) 表形式のデータセットをインポートする際の [インポート設定] セクションで、[詳細] ドロップダウンメニューを展開します。データフローのインポートには、次の詳細設定を指定できます。

    • サンプリング方法 – 使用するサンプリング方法とサンプルサイズを選択します。サンプルの変更方法の詳細については、「データフローのサンプリング設定を編集する」のセクションを参照してください。

    • ファイルエンコーディング (CSV) – データセットファイルのエンコーディングを選択します。 UTF-8 がデフォルトです。

    • 最初の行をスキップする – データセットの先頭に冗長な行がある場合は、インポートをスキップする行の数を入力します。

    • 区切り記号 – データ内の各項目を区切る区切り記号を選択します。カスタム区切り記号を指定することもできます。

    • 複数行の検出 — Canvas で複数行セルのデータセット全体を手動で解析する場合は、このオプションを選択します。Canvas ではデータのサンプルを取得することで、複数行のサポートを使用するかどうかを決定しますが、サンプル内の複数行セルが検出されない場合があります。この場合は、[複数行の検出] オプションを選択して、データセット全体の複数行セルの確認を Canvas に強制することをお勧めします。

  8. [インポート] を選択します。

これで、新しいデータフローが作成され、変換手順と分析の追加を開始できるようになりました。