翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データインポート
Amazon SageMaker Canvas は、表形式、イメージ、ドキュメントデータのインポートをサポートしています。ローカルマシン、Amazon S3 や Amazon Redshift などの Amazon サービス、および外部データソースからデータセットをインポートできます。Amazon S3 からデータセットをインポートするときは、任意のサイズのデータセットを取り込むことができます。インポートしたデータセットを使用して、モデルの構築や他のデータセットの予測を行えます。
カスタムモデルを構築できる各ユースケースでは、それぞれ異なるタイプの入力を受け入れます。例えば、単一ラベルの画像分類モデルを構築する場合は、画像データをインポートする必要があります。さまざまなモデルタイプとそれらが受け入れるデータの詳細については、「カスタムモデルの仕組み」を参照してください。 SageMaker Canvas では、次のデータ型に対してデータをインポートし、カスタムモデルを構築できます。
-
表形式 (CSV、Parquet、またはテーブル)
カテゴリ — カテゴリデータを使用して、2 つ以上のカテゴリ予測と 3 つ以上のカテゴリ予測用のカスタムカテゴリ予測モデルを構築します。
数値 — 数値データを使用して数値予測カスタムモデルを構築します。
テキスト — テキストデータを使用して、マルチカテゴリのテキスト予測カスタムモデルを構築します。
時系列 — 時系列データを使用して時系列予測カスタムモデルを構築します。
イメージ (JPG または PNG) – イメージデータを使用して、カスタム単一ラベルイメージ予測モデルを構築します。
ドキュメント (PDF、JPG、PNG、TIFF) — ドキュメントデータは SageMaker Canvas Ready-to-use モデルでのみサポートされています。ドキュメントデータの予測を行うことができるモデルの詳細については Ready-to-use、「」を参照してくださいReady-to-use モデル。
Canvas には、以下のデータソースからデータをインポートできます。
コンピュータ上のローカルファイル
Amazon S3 バケット
Amazon Redshift でプロビジョニングされたクラスター (Amazon Redshift Serverless ではない)
AWS Glue Data Catalog Amazon Athena 経由
-
Amazon Aurora
-
Amazon Relational Database Service (Amazon RDS)
-
Salesforce Data Cloud
Snowflake
-
JDBC コネクタを介した Databricks、SQLServer、MariaDBおよびその他の一般的なデータベース
次のような 40 を超える外部 SaaS プラットフォーム SAP OData
インポートできるデータソースの完全なリストについては、次の表を参照してください。
ソース | タイプ | サポートされているデータ型 |
---|---|---|
ローカルファイルのアップロード |
ローカル |
表形式、画像、ドキュメント |
Amazon Aurora |
Amazon 内部 |
表形式 |
Amazon S3 バケット |
Amazon 内部 |
表形式、画像、ドキュメント |
Amazon RDS |
Amazon 内部 |
表形式 |
Amazon Redshift でプロビジョニングされたクラスター (Redshift Serverless ではない) |
Amazon 内部 |
表形式 |
AWS Glue Data Catalog (Amazon Athena 経由) |
Amazon 内部 |
表形式 |
外部 |
表形式 |
|
Snowflake |
外部 |
表形式 |
外部 |
表形式 |
|
SQLServer |
外部 |
表形式 |
マイSQL |
外部 |
表形式 |
PostgreSQL |
外部 |
表形式 |
MariaDB |
外部 |
表形式 |
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
|
外部 SaaS プラットフォーム |
表形式 |
データのインポート方法や、画像の最大ファイルサイズなどの入力データの要件に関する情報については、「データセットを作成する」を参照してください。
また、Canvas をすぐに使用できるように、サンプルデータセットもいくつか用意されています。実験できる SageMakerが提供するサンプルデータセットの詳細については、「サンプルデータセットの使用」を参照してください。
データセットを Canvas にインポートした後は、いつでもデータセットを更新できます。手動で更新することも、データセットを自動更新するスケジュールを設定することもできます。詳細については、「データセットを更新する」を参照してください。
各データセットの詳細については、以下のセクションを参照してください。
表形式
外部データソース (Snowflake データベースや SaaS プラットフォームなど) からデータをインポートするには、認証後に Canvas アプリケーションでデータソースに接続する必要があります。詳細については、「データソースに接続する」を参照してください。
5 GB を超えるデータセットを Amazon S3 から Canvas にインポートする場合は、Amazon Athena を使用して Amazon S3 からデータをクエリおよびサンプリングすることで、より高速なサンプリングを実現できます。
Canvas でデータセットを作成したら、Data Wrangler のデータ準備機能を使用してデータを準備および変換できます。Data Wrangler を使用すると、欠損値を処理したり、機能を変換したり、複数のデータセットを 1 つのデータセットに結合したりできます。詳細については、「データ準備」を参照してください。
ヒント
データが表形式である限り、Amazon Redshift、Amazon Athena、Snowflake など、さまざまなソースのデータセットを結合できます。
画像
画像データセットを編集し、ラベルの割り当てや再割り当て、画像の追加や削除などのタスクを実行する方法については、「画像データセットを編集する」を参照してください。