翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
オートパイロットデータセットと問題タイプ
表形式のデータ(各列に特定のデータ型の特徴を含み、各行に観測値を含むデータ)は、AutoMLジョブのモデル候補で二項分類や回帰などの問題タイプを指定したり、指定したデータに基づいてユーザーに代わって問題タイプを検出したりするオプションを提供します。
オートパイロットデータセット、データタイプ、フォーマット
オートパイロットは、CSV または Parquet ファイルとしてフォーマットされた表形式のデータをサポートしています。各列に特定のデータ型の特徴を含み、各行に観測値を含む表形式のデータをサポートしています。これら 2 つのファイル形式のプロパティは大きく異なります。
-
.CSV(comma-separated-values) は、人間が読める平文でデータを格納する行ベースのファイル形式です。さまざまなアプリケーションでサポートされているため、データ交換で広く使用されています。
-
Parquet は、列ベースのファイル形式で、行ベースのファイル形式よりも効率的にデータを格納および処理します。このため、ビッグデータの問題にはより適したオプションです。
はデータタイプ列に受け入れられるのは、数値、カテゴリ、テキスト、およびカンマで区切られた数値の文字列を含む時系列です。オートパイロットがそれを検出すると、次の処理が行われます。時系列シーケンスは、以下が提供する特殊な機能変換器によって処理されますTSフレッシュ
オートパイロットは、最大数百GBの大規模データセットで機械学習モデルを構築することをサポートしています。入力データセットのデフォルトリソース制限とその増加方法の詳細については、以下を参照してください。オートパイロットクォータ。
オートパイロットの問題タイプ
表形式データでは、モデル候補で使用できる教師あり学習問題のタイプを次のようにさらに指定します。
回帰
回帰では、従属ターゲット変数の値は、それと相関する 1 つ以上の他の変数または属性に基づいて推定されます。一例として、バスルームと寝室の数、家と庭の平方フィートなどの特徴を使用した住宅価格の予測があります。回帰分析では、これらの特徴の 1 つ以上を入力として受け取り、家の価格を予測するモデルを作成できます。
二項分類
二項分類は、教師あり学習の一種で、属性に基づいて、事前に定義された相互に排他的な 2 つのクラスのいずれかに個人を割り当てます。正しくラベル付けされたオブジェクトで属性を指定した例でモデルにトレーニングしているため、監視されています。診断検査の結果に基づいて、個人が疾患を有するか否かの医学的診断が二値分類の一例です。
多クラス分類
多クラス分類とは、教師あり学習の一種で、その属性に基づいて複数のクラスのいずれかに個人を割り当てる分類です。属性が正しくラベル付けされたオブジェクトを提供する例を使用してモデルがトレーニングされるため、教師ありです。一例として、テキストドキュメントに最も関連性の高いトピックの予測があります。ドキュメントは、たとえば、宗教、政治、金融、または他のいくつかの事前定義されたトピッククラスのいずれかについてであるとして分類することができます。