データセットを作成する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットを作成する

以下のセクションでは、Amazon Canvas SageMaker でデータセットを作成する方法について説明します。カスタムモデルでは、表形式データと画像データ用のデータセットを作成できます。R eady-to-use モデルでは、表形式データセットと画像データセット、ドキュメントデータセットを使用できます。以下の情報を参照して、ワークフローを選択してください。

注記

ドキュメントデータを受け入れる R eady-to-use モデルのドキュメントデータセットをインポートする方法については、R eady-to-use モデルドキュメントのドキュメントデータをインポートするワークフローを参照してください。

データセットは複数のファイルで構成できます。例えば、CSV 形式のインベントリデータのファイルが複数ある場合があります。ファイルのスキーマ (または列名とデータ型) が一致している場合、これらのファイルをデータセットとしてまとめてアップロードできます。

Canvas は、データセットの複数のバージョンの管理もサポートしています。データセットを作成すると、最初のバージョンには「V1」というラベルが付けられます。データセットを更新することで、データセットの新しいバージョンを作成できます。手動で更新することも、データセットを新しいデータで自動更新するスケジュールを設定することもできます。詳細については、「データセットを更新する」を参照してください。

データを Canvas にインポートする際は、データが以下の表の要件を満たしていることを確認する必要があります。制限は、作成するモデルのタイプによって異なります。

制限 2 カテゴリモデル、3+ カテゴリモデル、数値モデル、時系列モデル テキスト予測モデル 画像予測モデル *R eady-to-use モデルのドキュメントデータ

サポートされているファイルタイプ

CSV および Parquet (ローカルアップロード、Amazon S3、またはデータベース)

JSON (データベース)

CSV および Parquet (ローカルアップロード、Amazon S3、またはデータベース)

JSON (データベース)

JPG、PNG

PDF、JPG、PNG、TIFF

最大ファイルサイズ

5 GB (データセット内のすべてのファイル)

5 MB (データセット内のすべてのファイル)

1 画像あたり 30 MB

1 ドキュメントあたり 5 MB

表形式データセットの最大ファイル数

50

50

該当なし

該当なし

1 回の手動アップロードでの表形式データセットの最大ファイル数

20

20

該当なし

該当なし

列の最大数

1,000

1,000

該当なし

該当なし

クイックビルドの最大エントリ数 (行、画像、またはドキュメント)

50,000 行

7500 行

5000 イメージ

該当なし

標準ビルドの最大エントリ数 (行、画像、またはドキュメント)

該当なし

150,000 行

180,000 イメージ

該当なし

クイックビルドの最小エントリ数 (行)

2 カテゴリ: 500 行

3+ カテゴリ、数値、時系列: 該当なし

該当なし

該当なし

該当なし

標準ビルドの最小エントリ数 (行、画像、またはドキュメント)

250 行

50 行

50 個のイメージ

該当なし

1 ラベルあたりの最小エントリ数 (行または画像)

該当なし

25 行

25 行

該当なし

ラベルの最小数

2 カテゴリ: 2

3+ カテゴリ: 3

数値、時系列: 該当なし

2

2

該当なし

ランダムサンプリングの最小サンプルサイズ

500

該当なし

該当なし

該当なし

ランダムサンプリングの最大サンプルサイズ

40,000

該当なし

該当なし

該当なし

ラベルの最大数

2 カテゴリ: 2

3+ カテゴリ、数値、時系列: 該当なし

1,000

1,000

該当なし

*現在、ドキュメントデータは、ドキュメントデータを受け入れる R eady-to-use モデルでのみサポートされています。ドキュメントデータを使用してカスタムモデルを構築することはできません。

以下の制限があることにも注意してください。

  • 表形式のデータの場合、Canvas では、ローカルアップロードと Amazon S3 インポートの両方で、.csv、.parquet、.parq、.pqt 以外の拡張子を持つファイルを選択できません。CSV ファイルでは、任意の共通区切り文字またはカスタム区切り文字を使用できます。また、新しい行を示す場合を除き、改行文字は使用できません。

  • Parquet ファイルを使用する表形式のデータについては、次の点に注意してください。

    • Parquet ファイルには、マップやリストのような複雑なタイプを含めることはできません。

    • Parquet ファイルの列名にはスペースを含めることはできません。

    • 圧縮を使用する場合、Parquet ファイルには gzip または snappy の圧縮タイプを使用する必要があります。こられの圧縮タイプの詳細については、gzip ドキュメントおよび snappy ドキュメントを参照してください。

  • ラベルの付いていない画像データには、モデルを構築する前にラベルを付ける必要があります。Canvas アプリケーション内で画像にラベルを割り当てる方法については、「画像データセットを編集する」を参照してください。

  • データセットの自動更新または自動バッチ予測設定を行う場合、Canvas アプリケーションで作成できる設定の合計は最大 20 個です。詳細については、「自動化を管理する」を参照してください。

データセットをインポートした後は、[データセット] ページでいつでもデータセットを確認できます。

表形式データをインポートする

表形式のデータセットを使用すると、カテゴリ、数値、時系列予測、テキスト予測の各モデルを構築できます。上記の[データセットのインポート] セクションの制限表を確認して、データが表形式データの要件を満たしていることを確認します (サンプルサイズの制限は、モデルを構築する前にデータをプレビューする場合にのみ適用されることに注意してください)。

表敬式のデータセットを Canvas にインポートするには、次の手順に従います。

  1. Canvas SageMaker アプリケーションを開きます。

  2. 左のナビゲーションペインの [Dataset] (データセット) を選択します。

  3. [データをインポート] を選択します。

  4. ドロップダウンメニューから、表形式 を選択します。

  5. ポップアップダイアログボックスの [データセット名] フィールドに、データセットの名前を入力して、[作成] を選択します。

  6. 表形式のデータセットの作成ページで、データソースドロップダウンメニューを開きます。

  7. データソースを選択します。

    • コンピュータからファイルをアップロードするには、[ローカルアップロード] を選択します。

    • Amazon S3 バケットや Snowflake データベースなど、他のソースからデータをインポートするには、[検索データソースバー] でデータソースを検索します。その後、インポートするデータソースのタイルを選択します。

      注記

      データは接続が有効になっているタイルからのみインポートできます。利用できないデータソースに接続する場合は、管理者に連絡してください。管理者の方は、「データソースに接続する」を参照してください。

    次のスクリーンショットは、[データソース] ドロップダウンメニューを示しています。

    [データソース] ドロップダウンメニュー、および検索バーでのデータソース検索のスクリーンショット。
  8. (オプション) Amazon Redshift または Snowflake データベースに初めて接続する場合、接続を作成するためのダイアログボックスが表示されます。ダイアログボックスに認証情報を入力し、[接続の作成] を選択します。既に接続がある場合は、接続を選択します。

  9. データソースでインポートするファイルを選択します。ローカルアップロードと Amazon S3 からのインポートでは、ファイルを選択できます。Amazon S3 のみの場合、バケットの S3 URI または ARN を入力 S3 エンドポイントフィールドに直接入力し、インポートするファイルを選択するオプションもあります。データベースソースの場合、左側のナビゲーションペインからテーブルを drag-and-drop データ化できます。

  10. (オプション) SQL クエリをサポートする表形式のデータソース (Amazon Redshift、Amazon Athena、Snowflake など) では、[SQL で編集] を選択して SQL クエリを作成し、インポートする前にテーブルを結合できます。詳細については、「 SageMaker Canvas にインポートしたデータを結合する」を参照してください。

    次のスクリーンショットは、Amazon Athena データソースの [SQL の編集] ビューを示しています。

    Amazon Athena データの [SQL の編集] ビューの SQL クエリを示すスクリーンショット。
  11. データセットのプレビューを選択して、インポートする前にデータをプレビューします。

  12. インポート設定 で、データセット名を入力するか、デフォルトのデータセット名を使用します。

  13. (オプション) Amazon S3 からインポートするデータには、詳細設定が表示され、次のフィールドに入力できます。

    1. データセットの最初の行を列名として使用する場合は、最初の行をヘッダーとして使用するオプションを に切り替えます。複数のファイルを選択した場合、これは各ファイルに適用されます。

    2. CSV ファイルをインポートする場合は、ファイルエンコーディング (CSV) ドロップダウンでデータセットファイルのエンコーディングを選択します。 UTF-8 がデフォルトです。

    3. 区切り文字ドロップダウンで、データ内の各セルを区切る区切り文字を選択します。デフォルトの区切り文字は です,。カスタム区切り文字を指定することもできます。

    4. Canvas でデータセット全体を複数行セル用に手動で解析する場合は、複数行検出を選択します。デフォルトでは、このオプションは選択されず、Canvas はデータのサンプルを取得して複数行サポートを使用するかどうかを決定します。ただし、Canvas はサンプル内の複数行のセルを検出しない場合があります。複数行セルがある場合は、複数行検出オプションを選択して、Canvas がデータセット全体に複数行セルがないかチェックするように強制することをお勧めします。

  14. データをインポートする準備ができたら、データセットの作成 を選択します。

データセットを Canvas にインポートしている間、[データセット] ページのリストにデータセットが表示されます。このページからは、データセットの詳細を表示する を行えます。

データセットの [ステータス]Ready と表示されたら、Canvas にデータが正常にインポートされ、モデルの構築を続行できます。

Amazon Redshift データベースや SaaS コネクタなどのデータソースに接続している場合は、その接続に戻ることができます。Amazon Redshift と Snowflake の場合、別のデータセットを作成して [データのインポート] ページに戻り、その接続の [データソース] タイルを選択することで、別の接続を追加できます。ドロップダウンメニューで前の接続を開くか、[接続を追加] を選択します。

注記

SaaS プラットフォームでは、データソースごとに 1 つの接続しか使用できません。

画像データをインポートする

画像データセットを使用すると、画像のラベルを予測する単一ラベルの画像予測カスタムモデルを構築できます。上記の「データセットをインポートする」セクションの制限表を確認して、画像データセットが画像データの要件を満たしていることを確認してください。

注記

画像データセットは、ローカルファイルのアップロードまたは Amazon S3 バケットからのみインポートできます。また画像データセットでは、1 つのラベルにつき少なくとも 25 個の画像が必要です。

画像データセットを Canvas にインポートするには、次の手順に従います。

  1. Canvas SageMaker アプリケーションを開きます。

  2. 左のナビゲーションペインの [Dataset] (データセット) を選択します。

  3. [データをインポート] を選択します。

  4. ドロップダウンメニューで、[画像] を選択します。

  5. ポップアップダイアログボックスの [データセット名] フィールドに、データセットの名前を入力して、[作成] を選択します。

  6. [インポート] ページで、[データソース] ドロップダウンメニューを開きます。

  7. データソースを選択します。コンピュータからファイルをアップロードするには、[ローカルアップロード] を選択します。Amazon S3 からファイルをインポートするには、[Amazon S3] を選択します。

  8. コンピュータまたは Amazon S3 バケットで、アップロードする画像または画像フォルダを選択します。

  9. データをインポートする準備ができたら、[データをインポート] を選択します。

データセットを Canvas にインポートしている間、[データセット] ページのリストにデータセットが表示されます。このページからは、データセットの詳細を表示する を行えます。

データセットの [ステータス]Ready と表示されたら、Canvas にデータが正常にインポートされ、モデルの構築を続行できます。

モデルの構築中は、画像データセットの編集、ラベルの割り当てや再割り当て、画像の追加、データセットからの画像の削除を行うことができます。画像データセットの編集方法の詳細については、「画像データセットを編集する」を参照してください。

ドキュメントデータをインポートする

経費分析、ID ドキュメント分析、ドキュメント分析、ドキュメントクエリ用の R eady-to-use モデルは、ドキュメントデータをサポートします。ドキュメントデータを使用してカスタムモデルを構築することはできません。

ドキュメントデータセットを使用すると、経費分析、ID ドキュメント分析、ドキュメント分析、ドキュメントクエリ R eady-to-use モデルの予測を生成できます。「データセットを作成する」セクションの制限表を確認して、ドキュメントデータセットがドキュメントデータの要件を満たしていることを確認してください。

注記

ドキュメントデータセットは、ローカルファイルのアップロードまたは Amazon S3 バケットからのみインポートできます。

ドキュメントデータセットを Canvas にインポートするには、次の手順に従います。

  1. Canvas SageMaker アプリケーションを開きます。

  2. 左のナビゲーションペインの [Dataset] (データセット) を選択します。

  3. [データをインポート] を選択します。

  4. ドロップダウンメニューで、[ドキュメント] を選択します。

  5. ポップアップダイアログボックスの [データセット名] フィールドに、データセットの名前を入力して、[作成] を選択します。

  6. [インポート] ページで、[データソース] ドロップダウンメニューを開きます。

  7. データソースを選択します。コンピュータからファイルをアップロードするには、[ローカルアップロード] を選択します。Amazon S3 からファイルをインポートするには、[Amazon S3] を選択します。

  8. コンピュータまたは Amazon S3 バケットで、アップロードするドキュメントファイルを選択します。

  9. データをインポートする準備ができたら、[データをインポート] を選択します。

データセットを Canvas にインポートしている間、[データセット] ページのリストにデータセットが表示されます。このページからは、データセットの詳細を表示する を行えます。

データセットの [ステータス]Ready と表示されたら、データが Canvas に正常にインポートされたことを示します。

[データセット] ページでは、データセットを選択してプレビューできます。プレビューでは、データセットの最初の 100 件のドキュメントが表示されます。

データセットの詳細を表示する

各データセットでは、データセット内のすべてのファイル、データセットのバージョン履歴、およびデータセットの自動更新設定を確認できます。[データセット] ページから、データセットを更新するカスタムモデルを構築する などのアクションを開始することもできます。

データセットの詳細を表示するには、次の手順に従います。

  1. Canvas SageMaker アプリケーションを開きます。

  2. 左のナビゲーションペインの [Dataset] (データセット) を選択します。

  3. データセットリストで、データセットを選択します。

[データ] タブにデータのプレビューが表示されます。[データセットの詳細] を選択すると、データセットに含まれるすべてのファイルが表示されます。ファイルを選択すると、選択したファイルのデータのみがプレビューに表示されます。画像データセットのプレビューでは、データセットの最初の 100 個の画像のみが表示されます。

[バージョン履歴] タブには、データセットのすべてのバージョンのリストが表示されます。データセットを更新するたびに、新しいバージョンが作成されます。データセットの更新の詳細については、「データセットを更新する」を参照してください。次のスクリーンショットは、Canvas アプリケーションの [バージョン履歴] タブを示しています。

データセットの [バージョン履歴] タブとデータセットのバージョン一覧のスクリーンショット。

[自動更新] タブでは、データセットの自動更新を有効にして、データセットの定期的な更新を設定できます。データセットの自動更新の詳細については、「データセットの自動更新を設定する」を参照してください。次のスクリーンショットは、自動更新が有効になっている [自動更新] タブと、データセットに対して実行された自動更新ジョブのリストを示しています。

データセットの自動更新が有効になっている [自動更新] タブと、自動更新ジョブのリストのスクリーンショット。