製品データセット - Amazon Personalize

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

製品データセット

An製品データセットは、アイテムに関するメタデータを格納します。これには、料金、ジャンル、在庫状況などの情報が含まれます。Items データセットはオプションです。あなたは、少なくとも作成する必要がありますデータセットとのやり取り

Items データセットを作成するときは、データセットのスキーマも作成する必要があります。Aschemaは、Amazon Personalize にデータの構造を通知し、Amazon Personalize がデータを解析できるようにします。Items データセットスキーマの例については、アイテムスキーマの例。スキーマの要件については、データセットとスキーマの要件

このセクションでは、必須項目データと、トレーニング用にアップロードできる項目データの種類について説明します。アイテムデータを Items データセットにインポートする方法については、」データの準備とインポート

Items データセットを作成してアイテムデータをインポートしたら、レコメンデーションをフィルタリングして、特定のアイテム条件に基づいてアイテムを追加または除外できます。詳細については、「」を参照してください。推奨事項のフィルタリング

必要品目データ

各アイテムに対して指定するデータは、Items データセットスキーマと一致する必要があります。少なくとも、アイテムごとにアイテム ID を指定する必要があります (最大長 256 文字)。スキーマによっては、アイテムのメタデータに空/NULL値を含めることができます。

モデルトレーニング中、Amazon Personalize eは最大75万個の商品を考慮します。75万個を超える商品をインポートした場合、Amazon Personalize eはトレーニングに含めるアイテムを決定します。新しいアイテム(インタラクションなしで最近追加したアイテム)や最近のインタラクションデータを含む既存のアイテムを含めることに重点を置きます。

Items データセットの最小要件と最大データ制限の詳細については、」サービスクォータ

作成のタイムスタンプデータ

Amazon Personalize では、作成タイムスタンプデータ(Unix エポック時間形式、秒単位)を使用して、アイテムの経過時間を計算し、それに応じて推奨事項を調整します。

1 つ以上の商品に対して作成タイムスタンプデータが欠落している場合、Amazon Personalize はインタラクションデータがあればその情報を推測し、アイテムの最も古いインタラクションデータのタイムスタンプをアイテムの作成タイムスタンプとして使用します。アイテムにインタラクションデータがない場合、作成タイムスタンプはトレーニングセット内の最新のインタラクションのタイムスタンプとして設定され、Amazon Personalize eは新しいアイテムとみなされます。

カテゴリ別メタデータ

の使用ユーザー・パーソナライゼーションまたはPersonalized-Rankingレシピを使用して、Amazon Personalize では、ユーザーにとって最も関連性の高いアイテムを明らかにする基になるパターンを識別する際に、アイテムのジャンルや色などのカテゴリデータを使用します。

すべてのレシピで、カテゴリデータをインポートし、それを使用してアイテムの属性に基づいてレコメンデーションをフィルタリングできます。推奨事項のフィルタリングの詳細については、「」を参照してください。推奨事項のフィルタリング

カテゴリデータを使用するには、タイプstringをスキーマに追加し、フィールドのカテゴリ属性をtrue。次に、バルク CSV ファイルとインクリメンタルアイテムのインポートにカテゴリデータを含めます。複数のカテゴリを持つアイテムの場合は、各値を縦棒 '|' で区切ります。カテゴリ別フィールドを含むスキーマの例については、「」を参照してください。アイテムスキーマの例

カテゴリ別値は 1,000 文字です。カテゴリ値が 1,000 文字を超えるアイテムは、データセットのインポートジョブ中に削除され、トレーニングには使用されません。

非構造化テキストのメタデータ

の使用ユーザー・パーソナライゼーションまたはPersonalized-Rankingレシピを使用すると、Amazon Personalize は、商品の説明、商品レビュー、映画の概要など、構造化されていないテキストメタデータから意味のある情報を抽出できます。Amazon Personalize は、非構造化テキストを使用して、ユーザーに関連するアイテムを識別します。特に、アイテムが新規であるか、またはインタラクションデータが少ない場合。非構造化テキストデータを Items データセットに含めて、カタログ内の新しいアイテムのクリック率と会話率を高めます。

非構造化データを使用するには、stringを Items スキーマに追加し、フィールドのtextual属性をtrue。次に、バルク CSV ファイルとインクリメンタルアイテムのインポートにテキストデータを含めます。バルク CSV ファイルの場合は、テキストを二重引用符で囲みます。非構造化テキストデータのフィールドを持つ Items スキーマの例については、」アイテムスキーマの例。Amazon Personalize へのデータのインポートの詳細については、「」を参照してください。データの準備とインポート

非構造化テキストの値は、最大 20,000 文字で、テキストは英語である必要があります。Amazon Personalize は、文字制限を超える値を 20,000 文字に切り捨てます。

アイテムスキーマの例

次の例は、Items スキーマの構造化方法を示しています。ITEM_ID フィールドは必須です。-GENREフィールドはカテゴリメタデータであり、DESCRIPTIONフィールドはテキストメタデータです。少なくとも 1 つのメタデータフィールドが必要です。最大 50 個のメタデータフィールドを追加できます。-CREATION_TIMESTAMPフィールドは予約済みキーワードです。スキーマの要件については、「」を参照してください。データセットとスキーマの要件

{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true }, ], "version": "1.0" }

このスキーマでは、CSV ファイルの履歴データの最初の数行は次のようになります。

ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...