カスタムモデルの構築 - アマゾン SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

カスタムモデルの構築

Amazon SageMaker Canvas を使用して、インポートしたデータセットでカスタムモデルを構築します。構築したモデルを使用して、新しいデータで予測を行います。 SageMaker Canvas では、データセット内の情報を使用して最大 250 のモデルが構築され、最適なモデルが選択されます。

モデルの作成を開始すると、Canvasは自動的に1つ以上のモデルタイプを推奨します。モデルタイプは、以下のいずれかに分類されます。

  • 数値予測これは機械学習では回帰として知られています。数値データの予測を行う場合は、数値予測モデルタイプを使用します。たとえば、住宅の面積などの特徴に基づいて住宅の価格を予測したい場合があります。

  • カテゴリカル予測これは機械学習の分類として知られています。データをグループに分類する場合は、カテゴリ予測モデルタイプを使用します。

    • 2 カテゴリの予測 — データに対して予測するカテゴリが 2 つある場合は、2 カテゴリの予測モデルタイプ (機械学習ではバイナリ分類とも呼ばれます) を使用します。たとえば、顧客が離脱する可能性が高いかどうかを判断できます。

    • 3+ カテゴリ予測 — データに対して予測するカテゴリが 3 つ以上ある場合は、3 つ以上のカテゴリ予測モデルタイプ (機械学習ではマルチクラス分類とも呼ばれます) を使用します。例えば、過去の支払いなどの特徴に基づいて、顧客のローン状況を予測できます。

  • 時系列予測-一定の期間を対象とした予測を行う場合は、時系列予測を使用します。たとえば、次の四半期に販売する商品の数を予測したい場合があります。時系列予測の詳細については、Amazon SageMaker Canvas の「時系列予測」を参照してください。

  • 画像予測 — 画像にラベルを割り当てる場合は、単一ラベル画像予測モデルタイプ (機械学習では単一ラベル画像分類とも呼ばれます) を使用します。例えば、製品の画像に含まれる製造上の欠陥の種類を分類できます。

  • テキスト予測 — テキストの一節にラベルを割り当てる場合は、マルチカテゴリテキスト予測モデルタイプ (機械学習ではマルチクラステキスト分類とも呼ばれます) を使用します。たとえば、ある製品に関するカスタマーレビューのデータセットがあり、顧客がその製品を気に入ったか嫌ったかを判断したい場合があります。特定のテキストの一節が、PositiveNegative、またはかどうかをモデルに予測させることもできますNeutral

各モデルタイプでサポートされる入力データ型の表については、を参照してくださいカスタムモデルを使用する

構築する表形式データモデル (数値、カテゴリ、時系列予測、テキスト予測モデルを含む) ごとに、ターゲット列を選択します[Target column] (ターゲット列) は、予測する情報を含む列です。たとえば、ユーザーがサブスクリプションをキャンセルしたかどうかを予測するモデルを構築する場合、ターゲット列にはnoそのユーザーのキャンセル状況に関するデータポイントが「a」yes または「a」になります。

画像予測モデルの場合、ラベルが割り当てられた画像のデータセットを使用してモデルを構築します。提供されたラベルのない画像については、モデルはラベルを予測します。たとえば、画像が猫か犬かを予測するモデルを構築する場合、モデルを作成するときに猫または犬というラベルの付いた画像を提供します。そうすれば、モデルはラベルのない画像を受け入れ、猫か犬かを予測できます。

モデルを構築した場合に起きること

モデルを構築するには、クイックビルドまたは標準ビルドを選択できますクイックビルドはビルド時間が短くなりますが一般的にはスタンダードビルドの方が精度が高くなります。次の表は、各モデルとビルドタイプの平均ビルド時間と、各ビルドタイプに必要なデータポイントの最小数と最大数の概要を示しています。

制限 数値予測とカテゴリ予測 時系列予測 イメージ予測 テキスト予測

ビルド時間の短縮

2~20 分

2~20 分

15-30 分

15-30 分

標準のビルド時間

2 — 4 時間

2 — 4 時間

2 時間 2 — 5 時間

2 時間 2 — 5 時間

クイックビルドのエントリ (行または画像) の最大数

50,000

50,000

5000

7500

クイックビルドの実行中にログアウトすると、再度ログインするまでビルドが中断されることがあります。再度ログインすると、Canvas はクイックビルドを再開します

Canvasは、モデルタイプに応じて、データセットの残りの情報を使用して値を予測します。

  • カテゴリ別予測の場合、Canvasは各行を Target 列にリストされているカテゴリのいずれかに分類します

  • 数値予測の場合、Canvasはデータセットの情報を使用して Target 列の数値を予測します

  • 時系列予測の場合、Canvasは履歴データを使用してfuture ターゲット列の値を予測します

  • 画像予測では、Canvasはラベルが割り当てられた画像を使用して、ラベルのない画像のラベルを予測します。

  • テキスト予測では、Canvasはラベルが割り当てられたテキストデータを分析して、ラベルのないテキストの一節のラベルを予測します。

モデル構築に役立つその他の機能

注記

数値予測、カテゴリ予測、時系列予測モデルでは、次の機能を使用できます。

モデルを構築する前に、データをフィルタリングしたり、高度な変換を使用してデータを準備したりできます。モデル構築のためのデータの準備の詳細については、「」を参照してください高度な変換によるデータの準備

また、ビジュアライゼーションと分析を使用してデータを調べ、どの機能をモデルに含めるのが最適かを判断することもできます。詳細については、「データの探索と分析」を参照してください。

モデルのプレビュー、データセットの検証、モデルの構築に使用されるランダムサンプルのサイズの変更などの追加機能の詳細については、を参照してくださいモデルをプレビューする

複数の列を含む表形式のデータセット (カテゴリ、数値、または時系列予測モデルタイプを構築するためのデータセットなど) では、データポイントが欠落している行がある場合があります。Canvasがモデルを構築している間、欠損値は自動的に追加されます。Canvas は、データセット内の値を使用して、欠損値の数学的近似を実行します。モデル精度を最も高くするために、欠落しているデータが見つかった場合は、その値を追加することをお勧めします。欠損データ機能はテキスト予測モデルや画像予測モデルではサポートされていないことに注意してください。

開始方法

カスタムモデルの構築を開始するには、モデルの構築構築するモデルの種類に応じた手順を参照して実行してください。