Linee guida sul formato dei dati - Amazon Personalize

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Linee guida sul formato dei dati

Quando importi dati in set di dati Amazon Personalize, puoi scegliere di importare i record in blocco, singolarmente o entrambi.

  • Le importazioni in blocco comportano l'importazione di un gran numero di record storici contemporaneamente. Puoi preparare e importare i tuoi dati di massa con Data Wrangler e più fonti di SageMaker dati. Oppure puoi preparare tu stesso i dati in blocco e importarli direttamente in Amazon Personalize da un file CSV in Amazon S3.

  • Con le importazioni individuali, importi singoli record con la console Amazon Personalize e le operazioni API. Oppure puoi trasmettere in streaming i dati sulle interazioni provenienti da eventi dal vivo in tempo reale. Per ulteriori informazioni sulle singole importazioni, consultaImportazione di singoli record.

Prima di importare i dati in blocco, assicurati che siano formattati correttamente. Le seguenti sezioni possono aiutarti a formattare i tuoi dati in blocco. Se non sei sicuro di come formattare i dati, puoi utilizzare Amazon SageMaker Data Wrangler (Data Wrangler) per preparare i dati. Per ulteriori informazioni, consulta Preparazione e importazione di dati con Amazon SageMaker Data Wrangler.

Linee guida e requisiti per il formato di dati in blocco

Le seguenti linee guida e requisiti possono aiutarti a garantire che i tuoi dati di massa siano formattati correttamente.

  • I dati di input devono essere in un file CSV (valori separati da virgole).

  • La prima riga del file CSV deve contenere le intestazioni delle colonne. Non racchiudere intestazioni tra virgolette (").

  • Assicurati di avere i campi obbligatori per il tipo di set di dati e assicurati che i loro nomi siano conformi ai requisiti di Amazon Personalize. Ad esempio, i dati Items potrebbero avere una colonna denominata ITEM_IDENTIFICATION_NUMBER con ID per ciascuno dei tuoi articoli. Per utilizzare questa colonna come campo ITEM_ID, rinomina la colonna in. ITEM_ID Se utilizzi Data Wrangler per formattare i tuoi dati, puoi utilizzare le colonne Map per la trasformazione di Amazon Personalize Data Wrangler per assicurarti che le colonne abbiano un nome corretto.

    Per informazioni sui campi obbligatori, consulta. Schemi Per informazioni sull'utilizzo di Data Wrangler per preparare i dati, consulta. Preparazione e importazione di dati con Amazon SageMaker Data Wrangler

  • I nomi delle intestazioni delle colonne nel file CSV devono corrispondere allo schema.

  • Ogni record del file CSV deve trovarsi su una sola riga.

  • I tipi di dati in ogni colonna devono corrispondere allo schema. Se si utilizza Data Wrangler per formattare i dati, è possibile utilizzare la trasformazione Data Wrangler Parse Value as Type per convertire i tipi di dati.

  • TIMESTAMPe CREATION_TIMESTAMP i dati devono essere in formato UNIX epoch time. Per ulteriori informazioni, consulta Dati relativi al timestamp.

  • Evita di includere " caratteri o caratteri speciali nei dati dell'ID dell'elemento, dell'ID utente e dell'ID dell'azione.

  • Se i dati includono caratteri non codificati in formato ASCII, il file CSV deve essere codificato in formato UTF-8.

  • Assicurati di formattare tutti i dati testuali come descritto in. Metadati di testo non strutturati

  • Assicurati di formattare i dati sulle impressioni e i dati categoriali come descritto in Formattazione delle impressioni esplicite e. Formattazione di dati categorici

Esempio di dati sulle interazioni

I seguenti dati sulle interazioni rappresentano l'attività storica degli utenti di un sito Web che vende biglietti per il cinema. Puoi utilizzare i dati per addestrare un modello che fornisca consigli sui film basati sui dati di interazione degli utenti.

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817

Ecco lo schema di interazioni associato:.

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }

Amazon Personalize richiede i campi USER_IDITEM_ID, eTIMESTAMP. USER_IDè l'identificatore di un utente della tua applicazione. ITEM_IDè l'identificatore di un film. EVENT_TYPEe EVENT_VALUE sono gli identificatori per le attività degli utenti. Nei dati di esempio, a click potrebbe rappresentare un evento di acquisto di un film e 15 potrebbe essere il prezzo di acquisto del film. TIMESTAMPrappresenta l'epoca Unix in cui è avvenuto l'acquisto del film.

Dati relativi al timestamp

I dati di data e ora, ad esempio TIMESTAMP (per i set di dati sulle interazioni tra elementi) o CREATION_TIMESTAMP (per i set di dati Items), devono essere in formato Unix epoch time in secondi. Ad esempio, il timestamp Epoch in secondi per la data 31 luglio 2020 è 1596238243. Per convertire le date in timestamp di epoca Unix, usa un convertitore Epoch - Unix timestamp converter.

Formattazione delle impressioni esplicite

Se usi la Personalizzazione dell'utente ricetta, puoi registrare e caricare i dati sulle impressioni. Le impressioni sono elenchi di elementi che erano visibili a un utente quando interagiva con un particolare elemento (ad esempio, quelli cliccati o guardati). Per caricare i dati sulle impressioni in un'importazione collettiva di dati, registra manualmente l'ID di ogni articolo. Assicurati di separare i valori con un carattere a barra verticale, '|', come parte dei dati storici sulle interazioni. Il carattere a barra verticale viene conteggiato ai fini del limite di 1000 caratteri per i dati sulle impressioni. Per ulteriori informazioni sui dati sulle impressioni, consulta. Dati sulle impressioni

Di seguito è riportato un breve estratto da un set di dati sulle interazioni tra elementi che include impressioni esplicite nella colonna. IMPRESSION

EVENT_TYPE IMPRESSIONE ITEM_ID TIMESTAMP USER_ID
clicca

73|70|17|95|96

73

1586731606

UTENTE_1
clicca

35|82|78|57|20|63|1|90|76|75|49|71|26|24|25|6

35

1586735164

UTENTE_2
... ... ... ... ...

L'applicazione mostrava USER_1 gli elementi utente73,70, 1795, 96 e alla fine l'utente ha scelto l'elemento. 73 Quando si crea una nuova versione della soluzione basata su questi dati70, gli elementi 1795,, 96 verranno consigliati all'utente meno frequentementeUSER_1.

Formattazione di dati categorici

Per includere più categorie per un singolo elemento quando si utilizzano i dati di stringa di categoria, separa i valori usando la barra verticale "|". Ad esempio, per un elemento che include due categorie, una riga di dati sarebbe simile alla seguente:

ITEM_ID,GENRE item_123,horror|comedy

Dopo aver formattato i dati, caricali in un bucket Amazon S3 in modo da poterli importare in Amazon Personalize. Per ulteriori informazioni, consulta Caricamento su un bucket Amazon S3.