カスタムモデルを構築する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

カスタムモデルを構築する

Amazon SageMaker Canvas を使用して、インポートしたデータセットにカスタムモデルを構築します。構築したモデルを使用して、新しいデータを予測します。 SageMaker Canvas はデータセット内の情報を使用して最大 250 個のモデルを構築し、最もパフォーマンスの高いモデルを選択します。

モデルの構築を始めると、Canvas は 1 つ以上のモデルタイプを自動的に推奨します。モデルタイプは、以下のいずれかに分類されます。

  • 数値予測 - これは、機械学習ではリグレッションと呼ばれます。数値データを予測する場合は、数値予測モデルタイプを使用します。例えば、住宅の平方フィートなどの特徴に基づいて住宅価格を予測する場合です。

  • カテゴリ予測 - これは、機械学習では分類と呼ばれます。データをグループに分類する場合は、次のカテゴリ予測モデルタイプを使用します。

    • 2 カテゴリ予測 — データについて予測したいカテゴリが 2 つある場合は、2 カテゴリ予測モデルタイプ (機械学習では二項分類とも呼ばれます) を使用します。例えば、顧客のチャーン可能性予測の場合です。

    • 3+ カテゴリ予測 — データについて予測したいカテゴリが 3 つ以上ある場合は、3+ カテゴリ予測モデルタイプ (機械学習ではマルチクラス分類とも呼ばれます) を使用します。例えば、過去の支払いなどの特徴に基づいて、顧客のローン状況を予測する場合です。

  • 時系列予測 - 一定の期間を対象とした予測を行う場合は、時系列予測を使用します。例えば、次の四半期に販売する商品の数を予測する場合です。時系列予測の詳細については、「Amazon SageMaker Canvas の時系列予測」を参照してください。

  • 画像予測 — 画像にラベルを割り当てる場合は、シングルラベル画像予測モデルタイプ (機械学習ではシングルラベル画像分類とも呼ばれます) を使用します。例えば、商品の画像に含まれるさまざまなタイプの製造上の欠陥を分類する場合です。

  • テキスト予測 — テキストの一部にラベルを割り当てる場合は、マルチカテゴリテキスト予測モデルタイプ (機械学習ではマルチクラステキスト分類とも呼ばれます) を使用します。例えば、ある商品のカスタマーレビューのデータセットがあり、顧客がその商品を気に入ったかそうでないかを判断する場合です。対象のテキストが、PositiveNegative、または Neutral のいずれであるかをモデルに予測させることができます。

各モデル型でサポートされる入力データ型の表については、「カスタムモデルを使用する」を参照してください。

構築する表形式データモデル (数値モデル、カテゴリモデル、時系列予測モデル、テキスト予測モデルを含む) ごとに、[ターゲット] 列を選択します。[ターゲット列] は、予測する情報を含む列です。例えば、ユーザーがサブスクリプションをキャンセルしたかどうかを予測するモデルを構築する場合、[ターゲット列] には、ユーザーのキャンセルステータスに関する「yes」または「no」のデータポイントが含まれます。

画像予測モデルでは、ラベルが割り当てられた画像のデータセットを使用してモデルを構築します。ラベルのない画像については、モデルがラベルを予測します。例えば、画像が猫か犬かを予測するモデルを作成する場合、モデルを構築する際に猫または犬というラベルの付いた画像を提供します。こうすることで、モデルはラベルの付いていない画像を受け入れ、それらが猫か犬かを予測できます。

モデル構築時の注意点

モデルを構築する際は、[クイックビルド] または [標準ビルド] のいずれを選択できます。[クイックビルド] は短時間でモデルを構築できますが、[標準ビルド] の方が一般的に精度が高くなります。各モデルとビルドタイプの平均構築時間と、各ビルドタイプに必要なデータポイントの最小数と最大数を次の表に示します。

制限 数値予測およびカテゴリ予測 時系列予測 画像予測 テキスト予測

クイックビルドの時間

2 - 20 分

2 - 20 分

15 - 30 分

15 - 30 分

標準ビルドの時間

2 - 4 時間

2 - 4 時間

2 - 5 時間

2 - 5 時間

クイックビルドの最大エントリ数 (行または画像)

50,000

50,000

5000

7500

[クイックビルド] の実行中にログアウトすると、再度ログインするまで構築処理が中断されることがあります。再度ログインすると、Canvas は [クイックビルド] を再開します。

Canvas は、モデルタイプに応じて、データセットの残りの情報を使用して値を予測します。

  • カテゴリ予測の場合、Canvas は各行を [ターゲット列] に一覧表示されているカテゴリのいずれかに配置します。

  • 数値予測の場合は、Canvas はデータセット内の情報を使用して、[ターゲット列] の数値を予測します。

  • 時系列予測の場合は、Canvas は履歴データを使用して将来の [ターゲット列] の値を予測します。

  • 画像予測の場合は、Canvas はラベルが割り当てられた画像を使用して、ラベルの付いていない画像のラベルを予測します。

  • テキスト予測の場合は、Canvas はラベルが割り当てられたテキストデータを分析して、ラベルの付いていないテキストのラベルを予測します。

モデルの構築に役立つその他の機能

注記

数値予測モデル、カテゴリ予測モデル、時系列予測モデルでは、次の機能を使用できます。

モデルを構築する前に、データのフィルタリングや高度な変換を使用したデータの準備を行うことができます。モデル構築で使用する独自のデータの準備の詳細については、「高度な変換を使用してデータを準備する」を参照してください。

また、視覚化と分析を使用してデータを検証し、どの機能をモデルに含めるのが最適かを判断することもできます。詳細については、「Explore and analyze your data」を参照してください。

モデルのプレビュー、データセットの検証、モデルの構築に使用されるランダムサンプルのサイズの変更など、その他の機能の詳細については、「モデルをプレビューする」を参照してください。

複数の列がある表形式のデータセット (カテゴリ、数値、または時系列予測の各モデルタイプを構築するためのデータセットなど) では、行にデータポイントが欠落している場合があります。Canvas はモデルを構築する際に欠損値を自動的に追加します。Canvas は、データセット内の値を使用して、欠損値の数学的近似を実行します。モデル精度を最も高くするために、欠落しているデータが見つかった場合は、その値を追加することをお勧めします。欠損データ機能は、テキスト予測モデルや画像予測モデルではサポートされていないことに注意してください。

開始方法

カスタムモデルの構築を開始するには、作成するモデルの種類に応じた「モデルの構築」手順を参照して手順に従ってください。