データインポート - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データインポート

Amazon SageMaker Canvas は、表形式、イメージ、ドキュメントデータのインポートをサポートしています。ローカルマシン、Amazon S3 や Amazon Redshift などの Amazon サービス、および外部データソースからデータセットをインポートできます。Amazon S3 からデータセットをインポートするときは、任意のサイズのデータセットを取り込むことができます。インポートしたデータセットを使用して、モデルの構築や他のデータセットの予測を行えます。

カスタムモデルを構築できる各ユースケースでは、それぞれ異なるタイプの入力を受け入れます。例えば、単一ラベルの画像分類モデルを構築する場合は、画像データをインポートする必要があります。さまざまなモデルタイプとそれらが受け入れるデータの詳細については、「カスタムモデルの仕組み」を参照してください。 SageMaker Canvas では、次のデータ型に対してデータをインポートし、カスタムモデルを構築できます。

  • 表形式 (CSV、Parquet、またはテーブル)

    • カテゴリ — カテゴリデータを使用して、2 つ以上のカテゴリ予測と 3 つ以上のカテゴリ予測用のカスタムカテゴリ予測モデルを構築します。

    • 数値 — 数値データを使用して数値予測カスタムモデルを構築します。

    • テキスト — テキストデータを使用して、マルチカテゴリのテキスト予測カスタムモデルを構築します。

    • 時系列 — 時系列データを使用して時系列予測カスタムモデルを構築します。

  • イメージ (JPG または PNG) – イメージデータを使用して、カスタム単一ラベルイメージ予測モデルを構築します。

  • ドキュメント (PDF、JPG、PNG、TIFF) — ドキュメントデータは SageMaker Canvas Ready-to-use モデルでのみサポートされています。ドキュメントデータの予測を行うことができるモデルの詳細については Ready-to-use、「」を参照してくださいReady-to-use モデル

Canvas には、以下のデータソースからデータをインポートできます。

  • コンピュータ上のローカルファイル

  • Amazon S3 バケット

  • Amazon Redshift でプロビジョニングされたクラスター (Amazon Redshift Serverless ではない)

  • AWS Glue Data Catalog Amazon Athena 経由

  • Amazon Aurora

  • Amazon Relational Database Service (Amazon RDS)

  • Salesforce Data Cloud

  • Snowflake

  • JDBC コネクタを介した Databricks、SQLServer、MariaDBおよびその他の一般的なデータベース

  • 次のような 40 を超える外部 SaaS プラットフォーム SAP OData

インポートできるデータソースの完全なリストについては、次の表を参照してください。

ソース タイプ サポートされているデータ型

ローカルファイルのアップロード

ローカル

表形式、画像、ドキュメント

Amazon Aurora

Amazon 内部

表形式

Amazon S3 バケット

Amazon 内部

表形式、画像、ドキュメント

Amazon RDS

Amazon 内部

表形式

Amazon Redshift でプロビジョニングされたクラスター (Redshift Serverless ではない)

Amazon 内部

表形式

AWS Glue Data Catalog (Amazon Athena 経由)

Amazon 内部

表形式

Databricks

外部

表形式

Snowflake

外部

表形式

Salesforce Data Cloud

外部

表形式

SQLServer

外部

表形式

マイSQL

外部

表形式

PostgreSQL

外部

表形式

MariaDB

外部

表形式

Amplitude

外部 SaaS プラットフォーム

表形式

CircleCI

外部 SaaS プラットフォーム

表形式

DocuSign モニタリング

外部 SaaS プラットフォーム

表形式

Domo

外部 SaaS プラットフォーム

表形式

Datadog

外部 SaaS プラットフォーム

表形式

Dynatrace

外部 SaaS プラットフォーム

表形式

Facebook 広告

外部 SaaS プラットフォーム

表形式

Facebook Page Insights

外部 SaaS プラットフォーム

表形式

Google 広告

外部 SaaS プラットフォーム

表形式

Google Analytics 4

外部 SaaS プラットフォーム

表形式

Google 検索コンソール

外部 SaaS プラットフォーム

表形式

GitHub

外部 SaaS プラットフォーム

表形式

GitLab

外部 SaaS プラットフォーム

表形式

Infor Nexus

外部 SaaS プラットフォーム

表形式

Instagram 広告

外部 SaaS プラットフォーム

表形式

Jira Cloud

外部 SaaS プラットフォーム

表形式

LinkedIn 広告

外部 SaaS プラットフォーム

表形式

LinkedIn 広告

外部 SaaS プラットフォーム

表形式

Mailchimp

外部 SaaS プラットフォーム

表形式

Marketo

外部 SaaS プラットフォーム

表形式

Microsoft Teams

外部 SaaS プラットフォーム

表形式

Mixpanel

外部 SaaS プラットフォーム

表形式

Okta

外部 SaaS プラットフォーム

表形式

Salesforce

外部 SaaS プラットフォーム

表形式

Salesforce Marketing Cloud

外部 SaaS プラットフォーム

表形式

Salesforce Pardot

外部 SaaS プラットフォーム

表形式

SAP OData

外部 SaaS プラットフォーム

表形式

SendGrid

外部 SaaS プラットフォーム

表形式

ServiceNow

外部 SaaS プラットフォーム

表形式

Singular

外部 SaaS プラットフォーム

表形式

Slack

外部 SaaS プラットフォーム

表形式

Stripe

外部 SaaS プラットフォーム

表形式

Trend Micro

外部 SaaS プラットフォーム

表形式

Typeform

外部 SaaS プラットフォーム

表形式

Veeva

外部 SaaS プラットフォーム

表形式

Zendesk

外部 SaaS プラットフォーム

表形式

Zendesk Chat

外部 SaaS プラットフォーム

表形式

Zendesk Sell

外部 SaaS プラットフォーム

表形式

Zendesk Sunshine

外部 SaaS プラットフォーム

表形式

Zoom Meetings

外部 SaaS プラットフォーム

表形式

データのインポート方法や、画像の最大ファイルサイズなどの入力データの要件に関する情報については、「データセットを作成する」を参照してください。

また、Canvas をすぐに使用できるように、サンプルデータセットもいくつか用意されています。実験できる SageMakerが提供するサンプルデータセットの詳細については、「サンプルデータセットの使用」を参照してください。

データセットを Canvas にインポートした後は、いつでもデータセットを更新できます。手動で更新することも、データセットを自動更新するスケジュールを設定することもできます。詳細については、「データセットを更新する」を参照してください。

各データセットの詳細については、以下のセクションを参照してください。

表形式

外部データソース (Snowflake データベースや SaaS プラットフォームなど) からデータをインポートするには、認証後に Canvas アプリケーションでデータソースに接続する必要があります。詳細については、「データソースに接続する」を参照してください。

5 GB を超えるデータセットを Amazon S3 から Canvas にインポートする場合は、Amazon Athena を使用して Amazon S3 からデータをクエリおよびサンプリングすることで、より高速なサンプリングを実現できます。

Canvas でデータセットを作成したら、Data Wrangler のデータ準備機能を使用してデータを準備および変換できます。Data Wrangler を使用すると、欠損値を処理したり、機能を変換したり、複数のデータセットを 1 つのデータセットに結合したりできます。詳細については、「データ準備」を参照してください。

ヒント

データが表形式である限り、Amazon Redshift、Amazon Athena、Snowflake など、さまざまなソースのデータセットを結合できます。

画像

画像データセットを編集し、ラベルの割り当てや再割り当て、画像の追加や削除などのタスクを実行する方法については、「画像データセットを編集する」を参照してください。