ドメインデータセットグループの開始方法 (SDK for Python (Boto3)) - Amazon Personalize

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ドメインデータセットグループの開始方法 (SDK for Python (Boto3))

このチュートリアルでは、 SDK for Python (Boto3) を使用して VIDEO_ON_DEMAND ドメインのドメインデータセットグループを作成する方法を示します。このチュートリアルでは、上位のおすすめユースケースのレコメンダーを作成します。

開始方法の演習を完了したら、不要な料金が発生しないように、作成したリソースを削除します。詳細については、「Amazon Personalize リソースを削除するための要件」を参照してください。

前提条件

このガイドで Python の例を使用するための前提条件のステップを以下に示します。

  • 開始方法の前提条件 を完了して必要な権限を設定し、トレーニングデータを作成します。独自のソースデータを使用する場合は、前提条件に示しているようにそのデータがフォーマットされていることを確認します。

  • 「」で指定されているとおりに AWS SDK for Python (Boto3) 環境を設定しますAWS SDKsのセットアップ

チュートリアル

次のステップでは、環境を検証し、Amazon Personalize SDK用の for Python (Boto3) クライアントを作成します。次に、データをインポートし、「上位のおすすめ」ユースケースのレコメンダーを作成して、レコメンデーションを取得します。

前提条件のステップを完了したら、以下の Python の例を実行して、環境が適切に設定されていることを確認します。このコードでは、このチュートリアルで使用する Amazon Personalize boto3 クライアントも作成されます。環境が正しく設定されている場合、使用可能なレシピのリストが表示され、このガイドの他の例を実行できます。

import boto3 personalizeRt = boto3.client('personalize-runtime') personalize = boto3.client('personalize') response = personalize.list_recipes() for recipe in response['recipes']: print (recipe)

Amazon Personalize boto3 クライアントを作成して環境を検証したら、「開始方法の前提条件」の完了時に作成した履歴データをインポートします。過去のデータを Amazon Personalize にインポートするには、次の操作を実行します。

  1. 以下のコードを使用して、Amazon Personalize でスキーマを作成します。gs-domain-interactions-schema を、スキーマの名前に置き換えます。

    import json schema = { "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" } create_interactions_schema_response = personalize.create_schema( name='gs-domain-interactions-schema', schema=json.dumps(schema), domain='VIDEO_ON_DEMAND' ) interactions_schema_arn = create_interactions_schema_response['schemaArn'] print(json.dumps(create_interactions_schema_response, indent=2))
  2. 次のコードを使用してデータセットグループを作成します。dataset group name をデータセットグループの名前に置き換えます。

    response = personalize.create_dataset_group( name = 'dataset group name', domain = 'VIDEO_ON_DEMAND' ) dsg_arn = response['datasetGroupArn'] description = personalize.describe_dataset_group(datasetGroupArn = dsg_arn)['datasetGroup'] print('Name: ' + description['name']) print('ARN: ' + description['datasetGroupArn']) print('Status: ' + description['status'])
  3. 次のコードを使用して、新しいデータセットグループにアイテムインタラクションデータセットを作成します。データセットに名前を付け、前のステップの schema_arn および dataset_group_arn を指定します。

    response = personalize.create_dataset( name = 'interactions-dataset-name', schemaArn = interactions_schema_arn, datasetGroupArn = dsg_arn, datasetType = 'INTERACTIONS' ) dataset_arn = response['datasetArn']
  4. 以下のコードとともにデータセットのインポートジョブを使用してデータをインポートします。このコードでは describe_dataset_import_job メソッドを使用してジョブのステータスを追跡します。

    パラメータとして、ジョブの名前、前のステップdataset_arnの 、トレーニングデータを保存した Amazon S3 バケットパス (s3://bucket name/folder name/ratings.csv)、サービスIAMロールの を渡しますARN。このロールは 開始方法の前提条件 の一部として作成しました。Amazon Personalize には、バケットにアクセスするための許可が必要です。アクセス権限の付与については、「Amazon Personalize に対する、Amazon S3 リソースへのアクセスの付与」を参照してください。

    import time response = personalize.create_dataset_import_job( jobName = 'JobName', datasetArn = 'dataset_arn', dataSource = {'dataLocation':'s3://amzn-s3-demo-bucket/filename.csv'}, roleArn = 'role_arn' ) dataset_interactions_import_job_arn = response['datasetImportJobArn'] description = personalize.describe_dataset_import_job( datasetImportJobArn = dataset_interactions_import_job_arn)['datasetImportJob'] print('Name: ' + description['jobName']) print('ARN: ' + description['datasetImportJobArn']) print('Status: ' + description['status']) max_time = time.time() + 3*60*60 # 3 hours while time.time() < max_time: describe_dataset_import_job_response = personalize.describe_dataset_import_job( datasetImportJobArn = dataset_interactions_import_job_arn ) status = describe_dataset_import_job_response["datasetImportJob"]['status'] print("Interactions DatasetImportJob: {}".format(status)) if status == "ACTIVE" or status == "CREATE FAILED": break time.sleep(60)

データセットのインポートジョブが完了すると、レコメンダーを作成する準備が整います。次のコードを使用してレコメンダーを取得します。パラメータとして、レコメンダーの名前、データセットグループの Amazon リソースネーム (ARN)、レシピ arn:aws:personalize:::recipe/aws-vod-top-picksを渡しますARN。このコードは、describe_recommender メソッドを使用してレコメンダーのステータスを追跡します。

import time create_recommender_response = personalize.create_recommender( name = 'gs-python-top-picks', recipeArn = 'arn:aws:personalize:::recipe/aws-vod-top-picks', datasetGroupArn = dsg_arn ) recommender_arn = create_recommender_response['recommenderArn'] print('Recommender ARN:' + recommender_arn) max_time = time.time() + 3*60*60 # 3 hours while time.time() < max_time: version_response = personalize.describe_recommender( recommenderArn = recommender_arn ) status = version_response["recommender"]["status"] if status == "ACTIVE": print("Creation succeeded for {}".format(recommender_arn)) elif status == "CREATE FAILED": print("Creation failed for {}".format(recommender_arn)) if status == "ACTIVE": break else: print("Recommender creation is still in progress") time.sleep(60)

レコメンダーを作成したら、それを使用して次のコードでレコメンデーションを取得します。前のステップで作成したレコメンダーの Amazon リソースネーム (ARN) とユーザー ID ( など) をパラメータとして渡します123。このメソッドは、推奨事項のリストを画面に出力します。

response = personalizeRt.get_recommendations( recommenderArn = "arn:aws:personalize:us-west-2:014025156336:recommender/gs-python-top-picks-89", userId = '123' ) print("Recommended items") for item in response['itemList']: print (item['itemId'])

Jupyter (iPython) ノートブックAPIsで Amazon Personalize の使用を開始する

Jupyter Notebook を使用してドメインデータセットグループの作成を開始するには、Amazon Personalize サンプルリポジトリの notebooks_managed_domains フォルダにある一連のノートブックを複製するかダウンロードします。ノートブックでは、トレーニングデータのインポート、レコメンダーの作成、Amazon Personalize でのレコメンデーションの取得について説明します。

注記

ノートブックの使用を開始する前に、.READMEmd の手順に従って環境を構築してください。