データセットを作成する

SageMaker Canvas の Data Wrangler フローまたはデータフローを使用して、データ準備パイプラインを作成および変更します。5 GB を超えるデータセットには Data Wrangler を使用することをお勧めします。

開始するには、次の手順を使用してデータをデータフローにインポートします。

SageMaker Canvas を開きます。
左側のナビゲーションで、[Data Wrangler] を選択します。
[インポートして準備] を選択します。
ドロップダウンメニューから、[表形式] または [画像] を選択します。
[データソースの選択] では、データソースを選択し、インポートするデータを選択します。最大 30 個のファイルまたは 1 つのフォルダを選択できます。Canvas にインポート済みのデータセットがある場合は、ソースとして [Canvas データセット] を選択します。それ以外の場合は、Amazon S3 や Snowflake などのデータソースに接続し、データを参照します。データソースへの接続またはデータのインポートについては、次のページを参照してください。
- データをインポートする
- データソースに接続する
インポートするデータを選択したら、[次へ] を選択します。
(オプション) 表形式のデータセットをインポートする際の [インポート設定] セクションで、[詳細] ドロップダウンメニューを展開します。データフローのインポートには、次の詳細設定を指定できます。
- サンプリング方法 – 使用するサンプリング方法とサンプルサイズを選択します。サンプルの変更方法の詳細については、「データフローのサンプリング設定を編集する」のセクションを参照してください。
- ファイルエンコーディング (CSV) – データセットファイルのエンコーディングを選択します。 UTF-8 がデフォルトです。
- 最初の行をスキップする – データセットの先頭に冗長な行がある場合は、インポートをスキップする行の数を入力します。
- 区切り記号 – データ内の各項目を区切る区切り記号を選択します。カスタム区切り記号を指定することもできます。
- 複数行の検出 — Canvas で複数行セルのデータセット全体を手動で解析する場合は、このオプションを選択します。Canvas ではデータのサンプルを取得することで、複数行のサポートを使用するかどうかを決定しますが、サンプル内の複数行セルが検出されない場合があります。この場合は、[複数行の検出] オプションを選択して、データセット全体の複数行セルの確認を Canvas に強制することをお勧めします。
[インポート] を選択します。

これで、新しいデータフローが作成され、変換手順と分析の追加を開始できるようになりました。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

データ準備

データフロー UI の仕組み