Directrices de formato de datos - Amazon Personalize

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Directrices de formato de datos

Al importar datos en conjuntos de datos de Amazon Personalize, puede optar por importar los registros de forma masiva, individual o de ambos modos.

  • Las importaciones masivas implican la importación de una gran cantidad de registros históricos a la vez. Puede preparar e importar sus datos masivos con SageMaker Data Wrangler y varios orígenes de datos. O bien, puede preparar datos masivos e importarlos directamente en Amazon Personalize desde un archivo CSV en Amazon S3.

  • Con las importaciones individuales, importa registros individuales con la consola de Amazon Personalize y las operaciones de la API. O bien, puede transmitir en streaming datos de interacciones de eventos en directo en tiempo real. Para obtener más información sobre importaciones individuales, consulte Importación de registros de individuales.

Antes de importar sus datos masivos, asegúrese de que tienen el formato correcto. Las siguientes secciones pueden ayudarle a aplicar formato a sus datos masivos. Si no está seguro de cómo dar formato a los datos, puede usar Amazon SageMaker Data Wrangler (Data Wrangler) para preparar los datos. Para obtener más información, consulte Preparación e importación de datos mediante Amazon SageMaker Data Wrangler.

Directrices y requisitos de formato de datos masivos

Las siguientes directrices y requisitos pueden ayudarle a asegurarse de que los datos masivos tengan el formato correcto.

  • Sus datos de entrada deben estar en un archivo CSV (valores separados por comas).

  • La primera fila del archivo CSV debe contener sus encabezados de columnas. No incluya los encabezados entre comillas (").

  • Asegúrese de tener los campos obligatorios para el tipo de conjunto de datos y asegúrese de que sus nombres cumplan con los requisitos de Amazon Personalize. Por ejemplo, sus datos de elementos podrían tener una columna llamada ITEM_IDENTIFICATION_NUMBER con los ID de cada uno de sus elementos. Para usar esta columna como un campo ITEM_ID, cambie el nombre de la columna a ITEM_ID. Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Asignar columnas para Amazon Personalize para asegurarse de que sus columnas tengan el nombre correcto.

    Para obtener información acerca de los campos necesarios, consulte Schemas. Para obtener información acerca del uso de Data Wrangler para preparar sus datos, consulte Preparación e importación de datos mediante Amazon SageMaker Data Wrangler.

  • Los nombres de los encabezados de las columnas de su archivo CSV deben asignarse a su esquema.

  • Cada registro de su archivo CSV debe estar en una sola línea.

  • Los tipos de datos de cada columna deben asignarse a su esquema. Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Analizar valor como tipo para convertir los tipos de datos.

  • Los datos de TIMESTAMP y CREATION_TIMESTAMP deben estar en formato de tiempo UNIX. Para obtener más información, consulte Datos de marca temporal.

  • Si sus datos incluyen caracteres codificados que no son ASCII, su archivo CSV debe estar codificado en formato UTF-8.

  • Asegúrese de aplicar formato a los datos textuales tal y como se describe en Metadatos de texto no estructurado.

  • Asegúrese de aplicar formato a los datos de impresión y los datos categóricos como se describe en Formato de impresiones explícitas y Formato de datos categóricos.

Ejemplo de datos de interacciones

Los siguientes datos de interacciones representan la actividad histórica de los usuarios de un sitio web que vende entradas de cine. Puede usar los datos para entrenar un modelo que ofrezca recomendaciones de películas basadas en los datos de interacciones de los usuarios.

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817

Este es el esquema de interacciones asociado:

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }

Amazon Personalize requiere los campos USER_ID, ITEM_ID y TIMESTAMP. USER_ID es el identificador de un usuario de su aplicación. ITEM_ID es el identificador de una película. EVENT_TYPE y EVENT_VALUE son los identificadores de las actividades del usuario. En los datos de muestra, un click podría representar un evento de compra de película y 15 podría ser el precio de compra de la película. TIMESTAMP representa la hora de tiempo Unix en la que tuvo lugar la compra de la película.

Datos de marca temporal

Los datos de marca temporal, como TIMESTAMP (para conjuntos de datos de interacciones de elementos) o CREATION_TIMESTAMP (para conjuntos de datos de elementos), deben estar en formato de hora de tiempo Unix en segundos. Por ejemplo, la marca temporal de Epoch en segundos para la fecha del 31 de julio de 2020 es 1596238243. Para convertir fechas en marcas temporales de tiempo Unix, utilice un Convertidor de tiempo - convertidor de marcas temporales Unix.

Formato de impresiones explícitas

Si utiliza la receta User-Personalization, puede registrar y subir los datos de las impresiones. Las impresiones son listas de elementos que estaban visibles para un usuario cuando interactuaba con un elemento concreto (por ejemplo, al hacer clic en él o verlo). Para subir los datos de impresiones en una importación de datos masivos, registre manualmente el ID de cada elemento. Asegúrese de separar los valores con una barra vertical, «|», como parte de sus datos históricos de interacciones. El carácter de la barra vertical cuenta para el límite de 1000 caracteres de los datos de impresiones. Para obtener más información acerca de los datos de impresiones, consulte Datos de impresiones.

El siguiente es un breve extracto de un conjunto de datos de interacciones de elementos que incluye impresiones explícitas en la columna IMPRESSION.

EVENT_TYPE IMPRESSION ITEM_ID TIMESTAMP USER_ID
click

73|70|17|95|96

73

1586731606

USUARIO_1
click

35|82|78|57|20|63|1|90|76|75|49|71|26|24|25|6

35

1586735164

USER_2
... ... ... ... ...

La aplicación mostró elementos de usuario de USER_1 73, 70, 17, 95 y 96, y el usuario finalmente eligió el elemento 73. Al crear una nueva versión de solución basada en estos datos, los elementos 70, 17, 95 y 96 serán recomendados con menor frecuencia al usuario USER_1.

Formato de datos categóricos

Si al utilizar datos de cadenas de categorías desea incluir varias categorías para un mismo elemento, separe los valores con una barra vertical, '|'. Por ejemplo, para un elemento que tiene dos categorías, se podría utilizar una fila de datos similar a la siguiente:

ITEM_ID,GENRE item_123,horror|comedy

Después de aplicar formato a los datos, súbalos a un bucket de Amazon S3 para poder importarlos en Amazon Personalize. Para obtener más información, consulte Carga en un bucket de Amazon S3.