翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Autopilot のデータセットと問題タイプ
表形式データ (つまり、各列に特定のデータ型の特徴量が含まれ、各行に観測値が含まれるデータ) の場合、Autopilot では、AutoML ジョブのモデル候補に使用できる教師あり学習問題のタイプ (二項分類や回帰など) を指定するオプション、または提供されたデータに基づいてユーザーに代わってそれを検出するオプションを提供します。Autopilot は、複数のデータ形式とデータ型もサポートしています。
Autopilot のデータセット、データ型、フォーマット
Autopilot は、 CSV ファイルまたは Parquet ファイルとしてフォーマットされた表形式データをサポートします。各列には特定のデータ型を持つ機能が含まれ、各行には観測値が含まれます。これら 2 つのファイル形式のプロパティは大きく異なります。
-
CSV (comma-separated-values) は、人間が読めるプレーンテキストにデータを保存する行ベースのファイル形式です。これは、幅広いアプリケーションでサポートされるため、データ交換の一般的な選択肢です。
-
Parquet は、列ベースのファイル形式で、行ベースのファイル形式よりも効率的にデータを格納および処理します。このため、ビッグデータの問題にはより適したオプションです。
列として受け入れられるデータ型には、数値、カテゴリ、テキスト、時系列 (カンマ区切りの数値の文字列で構成) が含まれます。Autopilot は、時系列シーケンスを扱っていることを検出すると、それを処理するために tsfresh
Autopilot は、最大数百の の大規模なデータセットでの機械学習モデルの構築をサポートしていますGBs。入力データセットに対するデフォルトのリソース制限と、これらの制限を引き上げる方法の詳細については、「Autopilot のクォータ」を参照してください。
オートパイロットの問題タイプ
表形式のデータでは、モデル候補で使用できる教師あり学習の問題タイプを次のようにさらに指定します。
リグレッション
リグレッションでは、従属ターゲット変数の値は、それと相関する 1 つ以上の他の変数または属性に基づいて推定されます。一例として、バスルームと寝室の数、家と庭の平方フィートなどの特徴を使用した住宅価格の予測があります。回帰分析では、これらの特徴量の 1 つ以上を入力として受け取り、家の価格を予測するモデルを作成できます。
二項分類
二項分類は、教師あり学習の一種で、属性に基づいて、事前に定義された相互に排他的な 2 つのクラスのいずれかに個人を割り当てます。属性が正しくラベル付けされたオブジェクトを提供する例を使用してモデルがトレーニングされるため、教師ありです。診断検査の結果に基づいて、個人が疾患を有するか否かの医学的診断が二値分類の一例です。
多クラス分類
多クラス分類とは、教師あり学習の一種で、その属性に基づいて複数のクラスのいずれかに個人を割り当てる分類です。属性が正しくラベル付けされたオブジェクトを提供する例を使用してモデルがトレーニングされるため、教師ありです。一例として、テキストドキュメントに最も関連性の高いトピックの予測があります。ドキュメントは、たとえば、宗教、政治、金融、または他のいくつかの事前定義されたトピッククラスのいずれかについてであるとして分類することができます。