Amazon SageMaker Auto候補のデータセットと問題タイプ - アマゾン SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker Auto候補のデータセットと問題タイプ

Amazon SageMaker Autopilot は、Studio または AutoML API において、Autopilot が二項分類や回帰などの問題タイプを指定する、あるいは提供されるデータに基づきユーザーに代わってそれを検出する、というオプションを提供します。Autopilot では、各列に特定のデータ型の特徴を含み、各行に観測値を含む表形式のデータをサポートしています。

Auto候補のデータセット、データ型、形式

Autopilot は、CSV ファイルまたは Parquet ファイルとしてフォーマットした表形式のデータをサポートしています。表形式のデータでは、各列に特定のデータ型の特徴が入り、各行に観測値が入ります。これら 2 つのファイル形式のプロパティは大きく異なります。

  • CSV (comma-separated-values) は、データを人間が読めるプレーンテキストで格納する行ベースのファイル形式で、幅広いアプリケーションでサポートされているため、データ交換に一般的に採用されています。

  • Parquet は、列ベースのファイル形式で、行ベースのファイル形式よりも効率的にデータを格納および処理します。このため、ビッグデータの問題にはより適したオプションです。

列に受け入れられるデータ型には、数値、カテゴリ、テキスト、時系列 (カンマ区切りの数値の文字列で構成) が含まれます。オートパイロットが時系列シーケンスを処理していることを検出するとtsfresh ライブラリが提供する専用の特徴変換器を使って処理します。このライブラリは、時系列を入力として受け取り、時系列の絶対最大値や自己相関の記述統計などの特徴を出力します。これらの出力された特徴は、3 つの問題タイプのいずれかに対する入力として使用されます。

Autopilot は、数百 GB に達する大規模なデータセットでの機械学習モデルの構築をサポートしています。入力データセットに対するデフォルトのリソース制限と、これらの制限を引き上げる方法の詳細については、「Amazon SageMaker Autopilot のクォータ」を参照してください。

トレーニングデータセットと検証データセットの指定方法

CreateAutoMLJob を使用して AutoML ジョブを作成する場合は、InputDataConfig パラメータを使用して、入力データソースを提供する AutoMLChannel オブジェクトを指定する必要があります。AutoMLChannel ごとに ChannelType があります。これは、training 値または validation 値に指定することで、機械学習モデルを構築するときにデータをどのように使用するかを指定できます。少なくとも 1 つのデータソースを指定する必要があり、最大 2 つのデータソースを指定できます。1 つはトレーニングデータ用、もう 1 つは検証データ用です。

データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。

  • データソースが 1 つのみである場合、ChannelType はデフォルトで training に設定され、この値を持つ必要があります。

    • AutoMLDataSplitConfigValidationFraction 値を設定しないと、このソースのデータの 0.2 (20%) がデフォルトで検証に使用されます。

    • ValidationFraction を 0 から 1 の間の値に設定すると、データセットは指定した値に基づいて分割されます。この値は、検証に使用されるデータセットの割合を指定します。

  • データソースが 2 つである場合は、AutoMLChannel オブジェクトの 1 つの ChannelTypetraining (デフォルト値) に設定する必要があります。他のデータソースの ChannelTypevalidation に設定する必要があります。2 つのデータソースは、同じ形式 (CSV または Parquet) と同じスキーマを持つ必要があります。この場合、ValidationFraction の値を設定してはいけません。各ソースのすべてのデータがトレーニングまたは検証に使用されるためです。この値を設定すると、エラーが発生します。

トレーニングの機能の選択方法

次の形式の CreateAutoMLJob APICandidateGenerationConfig 内の AutoMLFeatureSpecificatioS3Uri 属性を使用して、トレーニングに使用する機能を手動で選択できます。

{ "AutoMLJobConfig": { "CandidateGenerationConfig": { "FeatureSpecificiationS3Uri":"string" } } }

選択した特徴は次の形式の JSON ファイルに含まれている必要があります。

{ "FeatureAttributeNames":["col1", "col2", ...] }

["col1", "col2", ...]に記載されている値は大文字と小文字が区別されます。これらは、入力データ内の列名のサブセットである固有の値を含む文字列のリストでなければなりません。

注記

機能として提供される列のリストには、ターゲット列を含めることはできません。

Amazon SageMaker オートパイロットの問題タイプ

問題タイプは、CreateAutoPilot.ProblemType パラメータで設定します。これにより、Autopilot が試す前処理の種類とアルゴリズムが制限されます。ジョブが終了すると、CreateAutoPilot.ProblemType を設定している場合、ResolvedAttribute.ProblemType は設定した ProblemType と一致します。空白のまま (またはnull)ProblemType にすると、Autopilot により自動的に決定されます。

注記

場合によっては、Autopilot は十分な信頼度で ProblemType を推論できません。その場合、ジョブを成功させるために値を指定する必要があります。

問題タイプのオプションは次のとおりです。

回帰

回帰では、従属ターゲット変数の値は、それと相関する 1 つ以上の他の変数または属性に基づいて推定されます。一例として、バスルームと寝室の数、家と庭の平方フィートなどの特徴を使用した住宅価格の予測があります。回帰分析では、これらの特徴の 1 つ以上を入力として受け取り、家の価格を予測するモデルを作成できます。

二項分類

二項分類は、教師あり学習の一種で、属性に基づいて、事前に定義された相互に排他的な 2 つのクラスのいずれかに個人を割り当てます。属性が正しくラベル付けされたオブジェクトを提供する例を使用してモデルがトレーニングされるため、教師ありです。診断検査の結果に基づいて、個人が疾患を有するか否かの医学的診断が二値分類の一例です。

多クラス分類

多クラス分類とは、教師あり学習の一種で、その属性に基づいて複数のクラスのいずれかに個人を割り当てる分類です。属性が正しくラベル付けされたオブジェクトを提供する例を使用してモデルがトレーニングされるため、教師ありです。一例として、テキストドキュメントに最も関連性の高いトピックの予測があります。ドキュメントは、たとえば、宗教、政治、金融、または他のいくつかの事前定義されたトピッククラスのいずれかについてであるとして分類することができます。