ラベル付けするデータをフィルター処理して選択する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ラベル付けするデータをフィルター処理して選択する

Amazon SageMaker コンソールを使用して、データセットの一部を選択してラベル付けできます。データは Amazon S3 バケットに保存されている必要があります。次の 3 つの選択肢があります。

  • 完全なデータセットを使用する。

  • ランダムに選択されたサンプルデータセットを選択する。

  • クエリを使用してデータセットのサブセットを指定する。

ラベル付けジョブの作成 を選択すると、SageMakerコンソールのラベル付けジョブセクションで次のオプションを使用できます。コンソールでラベル付けジョブを作成する方法については、「開始」を参照してください。ラベル付けに使用するデータセットを設定するには、[ジョブの概要] セクションで [追加の設定] を選択します。

完全なデータセットを使用する

完全なデータセットの使用を選択した場合、データオブジェクトのマニフェストファイルを指定する必要があります。マニフェストファイルを含む Amazon S3 バケットのパスを指定するか、 SageMaker コンソールを使用してファイルを作成できます。コンソールを使用してマニフェストファイルを作成するには、「自動データ設定」を参照してください。

ランダムサンプルを選択する

データのランダムなサブセットにラベル付けする場合は、[Random sample)] (ランダムサンプル) を選択します。このデータセットは、[Input dataset location] (入力データセットの場所) フィールドに指定された Amazon S3 バケットに保存されます。

サンプルに含めるデータオブジェクトの割合を指定したら、「サブセットの作成」を選択します。ラベル付けジョブのデータオブジェクトを SageMaker ランダムに選択します。オブジェクトが選択されたら、[Use this subset] (このサブセットを使用する) を選択します。

SageMaker は、選択したデータオブジェクトのマニフェストファイルを作成します。また、新しいマニフェストファイルを参照するように、[Input dataset location] (入力データセットの場所) フィールドの値を変更します。

サブセットを指定する

オブジェクトファイル名を対象とする Amazon S3 SELECT クエリを使用して、データオブジェクトのサブセットを指定できます。

SQL クエリの SELECT ステートメントが自動的に定義されます。返されるデータオブジェクトを指定するには、WHERE 句を指定します。

Amazon S3 SELECT ステートメントの詳細については、「オブジェクトからのコンテンツの選択」を参照してください。

選択処理を開始するために [Create subset] (サブセットを作成する) を選択してから、選択されたデータを使用するために [Use this subset] (このサブセットを使用する) を選択します。

SageMaker は、選択したデータオブジェクトのマニフェストファイルを作成します。また、新しいマニフェストファイルを参照するように、[Input dataset location (入力データセットの場所)] フィールドの値を更新します。