入力データをフォーマットする - Amazon Personalize

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

入力データをフォーマットする

Amazon Personalize にデータをインポートするために使用するファイルは、使用しているスキーマに対応している必要があります。

Amazon Personalize は、カンマ区切り値 (CSV) 形式のファイルからのみデータをインポートします。Amazon Personalize では、CSV ファイルの 1 行目に列ヘッダーを含める必要があります。CSV ファイルの列ヘッダーは、データセットを作成するためにスキーマに対応している必要があります。ヘッダーを引用符 (") で囲まないでください。TIMESTAMPそしてCREATION_TIMESTAMPデータは次のものでなければなりませんUNIX Epoch時間形式。詳細については、「」を参照してください。タイムスタンプデータ

重要

データに ASCII 以外のエンコード文字が含まれている場合は、CSV ファイルを UTF-8 形式でエンコードする必要があります。

次のインタラクションデータは、映画のチケットを販売するウェブサイトの過去のユーザーアクティビティを表します。このデータを使用して、他のユーザーのアクティビティに基づき映画のレコメンデーションをユーザーに提供するモデルをトレーニングできます。

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817

関連するインタラクションスキーマを以下に繰り返します。

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }

Amazon Personalize はUSER_ID,ITEM_ID, およびTIMESTAMPフィールド。USER_IDは、アプリケーションのユーザーの識別子です。ITEM_IDは、映画の識別子です。EVENT_TYPEそしてEVENT_VALUEは、ユーザーアクティビティの識別子です。サンプルデータでは、click映画購入イベントを表しているかもしれないし、15映画の購入価格かもしれない。TIMESTAMPは、映画の購入が行われたUnix Epoch 時間を表します。

タイムスタンプデータ

タイムスタンプデータ (など)TIMESTAMP(インタラクションデータセットの場合) またはCREATION_TIMESTAMP(Items データセットの場合) データは、Unix エポック時間形式 (秒) でなければなりません。たとえば、2020 年 7 月 31 日のエポックタイムスタンプの秒数は 1596238243 です。日付を Unix エポックタイムスタンプに変換するには、エポックコンバータ-Unix タイムスタンプコンバータ

明示的なインプレッション形式の

ユーザーパーソナライゼーションレシピでは、インプレッションデータを記録およびアップロードできます。インプレッションは、ユーザーが特定のアイテムとインタラクション(クリックやウォッチなど)したときに表示されていたアイテムのリストです。一括データインポートでインプレッションデータをアップロードするには、各アイテム ID を手動で記録し、過去のインタラクションデータの一部として縦棒 '|' 文字で区切ります。インプレッションデータの詳細については、「」を参照してください。インプレッションデータ

以下は、インタラクションデータセットの短い抜粋です。このデータセットには、IMPRESSION列でロードバランサーの ID をクリックします。

EVENT_TYPE 印象 ITEM_ID TIMESTAMP USER_ID
クリック

73||70||17||95||96

73

1586731606

USER_1
クリック

35||82||78||57||20||63||1||90||76||75||49||71||26||24||25||6

35

1586735164

USER_2
... ... ... ... ...

アプリケーションはユーザーを示しましたUSER_1アイテム73,70,17,95, および96そしてユーザーは最終的に項目を選んだ73。このデータに基づいて新しいソリューションバージョンを作成する場合、項目70,17,95, および96ユーザーに推奨される頻度は少なくなりますUSER_1

カテゴリ別データ

カテゴリ別文字列データを使用する場合に 1 つのアイテムに複数のカテゴリを含めるには、縦棒文字「|」を使用して値を区切ります。たとえば、前のセクションの項目スキーマを 2 つのカテゴリを使用して一致させるには、データ行は次のようになります。

ITEM_ID,GENRE item_123,horror|comedy

データをフォーマットしたら、Amazon Personalize にインポートできるように Amazon S3 バケットにアップロードします。詳細については、Amazon S3 バケットにアップロードするにはを参照してください。