翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データセットを作成する
SageMaker Canvas の Data Wrangler フローまたはデータフローを使用して、データ準備パイプラインを作成および変更します。5 GB を超えるデータセットには Data Wrangler を使用することをお勧めします。
開始するには、次の手順を使用してデータをデータフローにインポートします。
-
SageMaker Canvas を開きます。
-
左側のナビゲーションで、[Data Wrangler] を選択します。
-
[インポートして準備] を選択します。
-
ドロップダウンメニューから、[表形式] または [画像] を選択します。
-
[データソースの選択] では、データソースを選択し、インポートするデータを選択します。最大 30 個のファイルまたは 1 つのフォルダを選択できます。Canvas にインポート済みのデータセットがある場合は、ソースとして [Canvas データセット] を選択します。それ以外の場合は、Amazon S3 や Snowflake などのデータソースに接続し、データを参照します。データソースへの接続またはデータのインポートについては、次のページを参照してください。
-
インポートするデータを選択したら、[次へ] を選択します。
-
(オプション) 表形式のデータセットをインポートする際の [インポート設定] セクションで、[詳細] ドロップダウンメニューを展開します。データフローのインポートには、次の詳細設定を指定できます。
サンプリング方法 – 使用するサンプリング方法とサンプルサイズを選択します。サンプルの変更方法の詳細については、「データフローのサンプリング設定を編集する」のセクションを参照してください。
ファイルエンコーディング (CSV) – データセットファイルのエンコーディングを選択します。
UTF-8
がデフォルトです。最初の行をスキップする – データセットの先頭に冗長な行がある場合は、インポートをスキップする行の数を入力します。
区切り記号 – データ内の各項目を区切る区切り記号を選択します。カスタム区切り記号を指定することもできます。
複数行の検出 — Canvas で複数行セルのデータセット全体を手動で解析する場合は、このオプションを選択します。Canvas ではデータのサンプルを取得することで、複数行のサポートを使用するかどうかを決定しますが、サンプル内の複数行セルが検出されない場合があります。この場合は、[複数行の検出] オプションを選択して、データセット全体の複数行セルの確認を Canvas に強制することをお勧めします。
-
[インポート] を選択します。
これで、新しいデータフローが作成され、変換手順と分析の追加を開始できるようになりました。