Autopilot のデータセットと問題タイプ - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Autopilot のデータセットと問題タイプ

表形式データ (つまり、各列に特定のデータ型の特徴量が含まれ、各行に観測値が含まれるデータ) の場合、Autopilot では、AutoML ジョブのモデル候補に使用できる教師あり学習問題のタイプ (二項分類や回帰など) を指定するオプション、または提供されたデータに基づいてユーザーに代わってそれを検出するオプションを提供します。

Autopilot のデータセット、データ型、フォーマット

Autopilot は、CSV ファイルまたは Parquet ファイルとしてフォーマットされた表形式のデータをサポートします。各列には特定のデータ型の特徴量が入り、各行には観測値が入ります。これら 2 つのファイル形式のプロパティは大きく異なります。

  • CSV (comma-separated-values) は、データを人間が読めるプレーンテキストで保存する行ベースのファイル形式であり、幅広いアプリケーションでサポートされるため、データ交換によく選択されています。

  • Parquet は、列ベースのファイル形式で、行ベースのファイル形式よりも効率的にデータを格納および処理します。このため、ビッグデータの問題にはより適したオプションです。

列として受け入れられるデータ型には、数値、カテゴリ、テキスト、時系列 (カンマ区切りの数値の文字列で構成) が含まれます。Autopilot は、時系列シーケンスを扱っていることを検出すると、それを処理するために tsfresh ライブラリが提供する専用の特徴変換器を使用します。このライブラリは、時系列を入力として受け取り、時系列の絶対最大値や自己相関の記述統計などの特徴を出力します。これらの出力された特徴量は、3 つの問題タイプのいずれかに対する入力として使用されます。

Autopilot は、最大 100 GB の大規模なデータセットでの機械学習モデルの構築をサポートします。入力データセットに対するデフォルトのリソース制限と、これらの制限を引き上げる方法の詳細については、「Autopilot のクォータ」を参照してください。

オートパイロットの問題タイプ

表形式のデータでは、モデル候補で使用できる教師あり学習の問題タイプを次のようにさらに指定します。

リグレッション

リグレッションでは、従属ターゲット変数の値は、それと相関する 1 つ以上の他の変数または属性に基づいて推定されます。一例として、バスルームと寝室の数、家と庭の平方フィートなどの特徴を使用した住宅価格の予測があります。回帰分析では、これらの特徴量の 1 つ以上を入力として受け取り、家の価格を予測するモデルを作成できます。

二項分類

二項分類は、教師あり学習の一種で、属性に基づいて、事前に定義された相互に排他的な 2 つのクラスのいずれかに個人を割り当てます。属性が正しくラベル付けされたオブジェクトを提供する例を使用してモデルがトレーニングされるため、教師ありです。診断検査の結果に基づいて、個人が疾患を有するか否かの医学的診断が二値分類の一例です。

多クラス分類

多クラス分類とは、教師あり学習の一種で、その属性に基づいて複数のクラスのいずれかに個人を割り当てる分類です。属性が正しくラベル付けされたオブジェクトを提供する例を使用してモデルがトレーニングされるため、教師ありです。一例として、テキストドキュメントに最も関連性の高いトピックの予測があります。ドキュメントは、たとえば、宗教、政治、金融、または他のいくつかの事前定義されたトピッククラスのいずれかについてであるとして分類することができます。