翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
入力データのフォーマット
データを Amazon Personalize にインポートするために使用するファイルは、使用しているスキーマに対応している必要があります。
Amazon Personalize は、コンマ区切り値 (CSV) 形式のファイルからのみデータをインポートします。Amazon Personalize では、CSV ファイルの最初の行に列ヘッダーが含まれている必要があります。CSV ファイルの列ヘッダーは、データセットを作成するためにスキーマに対応している必要があります。ヘッダーを引用符 (") で囲まないでください。TIMESTAMP
および CREATION_TIMESTAMP
データは UNIX エポック時間形式である必要があります。詳細については、「」を参照してください。タイムスタンプのデータ。スキーマの詳細については、「データセットとスキーマ」を参照してください。
データに ASCII でエンコードされていない文字が含まれている場合は、CSV ファイルを UTF-8 形式でエンコードする必要があります。
次のインタラクションデータは、映画のチケットを販売するウェブサイトからの過去のユーザーアクティビティを表しています。このデータを使用して、他のユーザーのアクティビティに基づき映画のレコメンデーションをユーザーに提供するモデルをトレーニングできます。
USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817
関連するインタラクションスキーマを以下に繰り返します。
{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }
Amazon Personalize には、USER_ID
、ITEM_ID
、および TIMESTAMP
フィールドが必要です。USER_ID
は、アプリケーションのユーザーの識別子です。ITEM_ID
は映画の識別子です。EVENT_TYPE
と EVENT_VALUE
は、ユーザーアクティビティの識別子です。サンプルデータでは、click
は映画の購入イベントを表し、15
は映画の購入価格です。TIMESTAMP
は、映画の購入が実行された Unix エポック時間を表します。
タイムスタンプのデータ
TIMESTAMP
(Interactions データセットの場合) または CREATION_TIMESTAMP
(Items データセットの場合) データなどのタイムスタンプデータは、Unix エポック時間 (秒) 形式である必要があります。例えば、2020 年 7 月 31 日の日付のエポックタイムスタンプ (秒) は 1596238243 です。日付を Unix エポックタイムスタンプに変換するには、[Epoch converter - Unix timestamp converter]
明示的なインプレッションのフォーマット
User-Personalization レシピを使用すると、インプレッションデータを記録およびアップロードできます。インプレッションは、ユーザーが特定のアイテムを操作した (例えば、クリックや視聴した) ときに表示されたアイテムのリストです。一括データインポートでインプレッションデータをアップロードするには、各アイテム ID を手動で記録し、履歴インタラクションデータの一部として値をバーティカルバー「|」の文字で区切ります。縦棒の文字は、インプレッションデータの 1000 文字制限にカウントされます。インプレッションデータの詳細については、「インプレッションデータ」を参照してください。
IMPRESSION
列に明示的なインプレッションを含む Interactions データセットからの短い抜粋を次に示します。
EVENT_TYPE | IMPRESSION | ITEM_ID | TIMESTAMP | USER_ID |
---|---|---|---|---|
クリック |
73|70|17|95|96 |
73 |
1586731606 |
USER_1 |
クリック |
35|82|78|57|20|63|1|90|76|75|49|71|26|24|25|6 |
35 |
1586735164 |
USER_2 |
... | ... | ... | ... | ... |
アプリケーションは、ユーザーに対して、 USER_1
アイテム、73
、70
、17
、95
および 96
を表示し、ユーザーは最終的にアイテム 73
を選択しました。このデータに基づいて新しいソリューションバージョンを作成すると、アイテム 70
、17
、95
、および 96
がユーザー USER_1
に推奨される頻度が低くなります。
カテゴリ別データ
カテゴリ別文字列データを使用する場合に 1 つのアイテムに複数のカテゴリを含めるには、縦棒文字「|」を使用して値を区切ります。たとえば、2 つのカテゴリがあるアイテムの場合、データ行は次のようになります。
ITEM_ID,GENRE item_123,horror|comedy
データをフォーマットしたら、Amazon S3 バケットにアップロードして、Amazon Personalize にインポートできるようにします。詳細については、Amazon S3 バケットへのアップロードを参照してください。