翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データセットのインポートジョブを使用したバルクレコードのインポート
入力データをフォーマットし (「データ形式ガイドライン」を参照)、Amazon Simple Storage Service (Amazon S3) バケットにアップロードして (「Amazon S3 バケットへのアップロード」を参照)、データセットとスキーマの作成 を完了したら、データセットのインポートジョブを作成することによってバルクレコードをインポートします。
データセットインポートジョブは、Amazon S3 バケットからのデータをデータセットに取り込む一括インポートツールです。データセットのインポートジョブは、Amazon Personalize コンソール、 (AWS CLI)、 AWS Command Line Interface または を使用して作成できます AWS SDKs。
以前にデータセットのデータセットインポートジョブを作成したことがある場合は、新しいデータセットインポートジョブを使用して、既存のバルクデータを追加または置き換えることができます。詳細については、「既存のバルクレコードの更新」を参照してください。
インポートモード
データセットのインポートジョブを既に作成している場合は、Amazon Personalize が新しいレコードを追加する方法を設定できます。これを行うには、データセットのインポートジョブのインポートモードを指定します。一括レコードをインポートしていない場合、インポートモードフィールドはコンソールでは使用できず、 CreateDatasetImportJob
APIオペレーションFULL
でのみ指定できます。デフォルトは完全な置き換えモードです。
-
データセット内のすべての既存のバルクデータを上書きするには、Amazon Personalize コンソールで既存のデータを置き換えるか、 CreateDatasetImportJobAPIオペレーション
FULL
で を指定します。これにより、リアルタイムで記録されたイベントを含め、個別にインポートしたデータが置き換えられることはありません。 -
データセット内の既存のデータにレコードを追加するには、既存のデータに追加するか、
CreateDatasetImportJob
API オペレーションINCREMENTAL
で を指定します。Amazon Personalize は、同じ ID のレコードをすべて新しいレコードに置き換えます。注記
データセットのインポートジョブでアイテムインタラクションデータセットまたはアクションインタラクションデータセットにデータを追加するには、少なくとも 1,000 件の新しいインタラクションレコードまたはアクションインタラクションレコードが必要です。
バルクレコードのインポート (コンソール)
重要
デフォルトでは、データセットのインポートジョブは、一括でインポートしたデータセット内の既存のデータを置き換えます。バルクデータを既にインポートしている場合は、ジョブのインポートモード を変更してデータを追加できます。
Amazon Personalize コンソールを使用してバルクレコードをデータセットにインポートするには、名前、IAMサービスロール、データの場所を使用してデータセットのインポートジョブを作成します。
データセットとスキーマの作成 でデータセットを作成したばかりの場合は、ステップ 5 に進んでください。
バルクレコードをインポートするには (コンソール)
-
https://console.aws.amazon.com/personalize/自宅
の Amazon Personalize コンソールを開き、アカウントにサインインします。 -
[データセットグループ] のページで、データセットグループを選択します。データセットグループの 概要 が表示されます。
-
ナビゲーションペインで、[データセット] を選択し、バルクデータのインポート先となるデータセットを選択します。
-
[データセットインポートジョブ] で [データセットインポートジョブの作成] を選択します。
-
これが最初のデータセットのインポートジョブである場合は、「データインポートソース」でS3 からデータをインポートする」を選択します。
-
[データセットのインポートジョブ名] で、インポートジョブの名前を指定します。
-
バルクデータを既にインポートしている場合は、インポートモード でデータセットを更新する方法を選択します。[既存のデータを置換] または [既存のデータに追加] を選択します。このオプションは、データセットの最初のジョブである場合は表示されません。詳細については、「既存のバルクレコードの更新」を参照してください。
-
「データインポートソース」の「データロケーション」で、データファイルが Amazon S3 に保存されている場所を指定します。次の構文を使用します。
s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>
CSV ファイルが Amazon S3 バケット内のフォルダにあり、1 つのデータセットのインポートジョブで複数のCSVファイルをデータセットにアップロードする場合は、フォルダへのパスを指定できます。Amazon Personalize はフォルダの最初のレベルにあるファイルのみを使用し、サブフォルダのデータは一切使用しません。フォルダ名の後に
/
を付けて次の構文を使用します。s3:/amzn-s3-demo-bucket/<folder path>/
-
IAM ロール で、新しいロールを作成するか、既存のロールを使用するかを選択します。前提条件を満たしたら、[既存のサービスロールを使用する] を選択し、Amazon Personalize 向けの IAM ロールの作成 で作成したロールを指定します。
-
メトリクス属性を作成し、このジョブに関連するメトリクスをAmazon S3 に公開する場合は、[イベントメトリクスを S3 に公開] で [このインポートジョブのメトリクスを公開] を選択します。
メトリクスがまだ作成されておらず、このジョブのメトリクスを公開したい場合は、[メトリクス属性の作成] を選択して別のタブに新しいメトリクスを作成します。メトリクス属性を作成したら、この画面に戻ってインポートジョブの作成を完了できます。
メトリクス属性の詳細については、「Amazon Personalize レコメンデーションの影響の測定」を参照してください。
-
[タグ] には、オプションで任意のタグを追加します。Amazon Personalize リソースのタグ付けについての詳細は、「Amazon Personalize リソースのタグ付け」を参照してください。
-
[Start import (インポートの開始)] を選択します。データインポートジョブが開始され、[Dashboard Overview (ダッシュボード概要)] ページが表示されます。ステータスが と表示されると、データセットのインポートは完了ですACTIVE。Amazon Personalize データセットにデータをインポートしたら、分析、Amazon S3 バケットへのエクスポート、更新、またはデータセットの削除による削除を行うことができます。詳細については、「データセット内のトレーニングデータの管理」を参照してください。
データをインポートしたら、ソリューションを作成する準備が整います。詳細については、「ソリューションとソリューションバージョンの作成」を参照してください。
バルクレコードのインポート (AWS CLI)
重要
デフォルトでは、データセットのインポートジョブは、一括でインポートしたデータセット内の既存のデータを置き換えます。バルクデータを既にインポートしている場合は、ジョブのインポートモード を変更してデータを追加できます。
を使用してバルクレコードをインポートするには AWS CLI、 CreateDatasetImportJob コマンドを使用してデータセットのインポートジョブを作成します。以前にデータセットのデータセットインポートジョブを作成したことがある場合は、インポートモードパラメーターを使用して新しいデータの追加方法を指定できます。既存のバルクデータの更新の詳細については、「既存のバルクレコードの更新」を参照してください。
バルクレコードをインポートする (AWS CLI)
-
次のコマンドを実行してデータセットのインポートジョブを作成します。データセットの Amazon リソースネーム (ARN) を指定し、トレーニングデータを保存した Amazon S3 バケットへのパスを指定します。パスには次の構文を使用します。
s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>
CSV ファイルが Amazon S3 バケット内のフォルダにあり、1 つのデータセットのインポートジョブで複数のCSVファイルをデータセットにアップロードする場合は、フォルダへのパスを指定できます。Amazon Personalize はフォルダの最初のレベルにあるファイルのみを使用し、サブフォルダのデータは一切使用しません。フォルダ名の後に
/
を付けて次の構文を使用します。s3:/amzn-s3-demo-bucket/<folder path>/
で作成した AWS Identity and Access Management (IAM) ロールの Amazon リソースネーム (ARN) を指定しますAmazon Personalize 向けの IAM ロールの作成。
import-mode
のデフォルト値はFULL
です。詳細については、「既存のバルクレコードの更新」を参照してください。オペレーションの詳細については、「CreateDatasetImportJob」を参照してください。aws personalize create-dataset-import-job \ --job-name
dataset import job name
\ --dataset-arndataset arn
\ --data-source dataLocation=s3://amzn-s3-demo-bucket
/filename
\ --role-arnroleArn
\ --import-modeFULL
次の例に示すように、データセットのインポートジョブARNが表示されます。
{ "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobName" }
-
describe-dataset-import-job
コマンドを使用してステータスを確認します。前のステップで返ARNされたデータセットのインポートジョブを指定します。オペレーションの詳細については、「DescribeDatasetImportJob」を参照してください。aws personalize describe-dataset-import-job \ --dataset-import-job-arn
dataset import job arn
データセットのインポートジョブのプロパティとそのステータスが表示されます。最初は、 は CREATE と
status
表示されますPENDING。{ "datasetImportJob": { "jobName": "Dataset Import job name", "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobArn", "datasetArn": "arn:aws:personalize:us-west-2:acct-id:dataset/DatasetGroupName/INTERACTIONS", "dataSource": { "dataLocation": "s3://amzn-s3-demo-bucket/ratings.csv" }, "importMode": "FULL", "roleArn": "role-arn", "status": "CREATE PENDING", "creationDateTime": 1542392161.837, "lastUpdatedDateTime": 1542393013.377 } }
ステータスが と表示されると、データセットのインポートは完了ですACTIVE。Amazon Personalize データセットにデータをインポートしたら、分析、Amazon S3 バケットへのエクスポート、更新、またはデータセットの削除による削除を行うことができます。詳細については、「データセット内のトレーニングデータの管理」を参照してください。
データをデータセットグループの関連するデータセットにインポートしたら、ソリューションバージョンを作成します (トレーニング済みモデル)。詳細については、「ソリューションとソリューションバージョンの作成」を参照してください。
バルクレコードのインポート (AWS SDKs)
重要
デフォルトでは、データセットのインポートジョブは、一括でインポートしたデータセット内の既存のデータを置き換えます。バルクデータを既にインポートしている場合は、ジョブのインポートモード を変更してデータを追加できます。
データをインポートするには、CreateDatasetImportJob オペレーションを使用してデータセットのインポートジョブを作成します。次のコードは、データセットのインポートジョブを作成する方法を示しています。
ジョブ名を指定し、データセットの datasetArn
Amazon リソースネーム (ARN) を設定し、 dataLocation
をトレーニングデータを保存した Amazon S3 バケットへのパスに設定します。パスには次の構文を使用します。
s3:/amzn-s3-demo-bucket/<folder
path>/<CSV filename>.csv
CSV ファイルが Amazon S3 バケット内のフォルダにあり、1 つのデータセットのインポートジョブで複数のCSVファイルをデータセットにアップロードする場合は、フォルダへのパスを指定できます。Amazon Personalize はフォルダの最初のレベルにあるファイルのみを使用し、サブフォルダのデータは一切使用しません。フォルダ名の後に /
を付けて次の構文を使用します。
s3:/amzn-s3-demo-bucket/<folder
path>/
にはroleArn
、S3 バケットへのアクセス許可を Amazon Personalize に付与する AWS Identity and Access Management (IAM) ロールを指定します。「Amazon Personalize 向けの IAM ロールの作成」を参照してください。importMode
のデフォルト値は FULL
です。これにより、データセット内のすべてのバルクデータが置き換えられます。データを追加するには、 に設定しますINCREMENTAL
。既存のバルクデータの更新の詳細については、「既存のバルクレコードの更新」を参照してください。
DescribeDatasetImportJob 操作のレスポンスには、操作のステータスが含まれます。
データを使用してモデルをトレーニングACTIVEするには、ステータスが に変わるまで待つ必要があります。
ステータスが と表示されると、データセットのインポートは完了ですACTIVE。Amazon Personalize データセットにデータをインポートしたら、分析、Amazon S3 バケットへのエクスポート、更新、またはデータセットの削除による削除を行うことができます。詳細については、「データセット内のトレーニングデータの管理」を参照してください。
データをデータセットグループの関連するデータセットにインポートしたら、ソリューションバージョンを作成します (トレーニング済みモデル)。詳細については、「ソリューションとソリューションバージョンの作成」を参照してください。