Directrices de formato de datos masivos para todos los tipos de datos

Preparación de los datos de entrenamiento para Amazon Personalize

Después de elegir un caso de uso de dominio o una receta y anotar los requisitos de datos, podrá empezar a preparar los datos. Amazon Personalize puede utilizar los siguientes tipos de datos:

Interacciones de elemento: en Amazon Personalize, una interacción de elemento es un evento de interacción positiva entre un usuario y un elemento del catálogo. Por ejemplo, un usuario ve una película, ve un anuncio o compra un par de zapatos.
Elementos: los metadatos de elemento pueden incluir información como el precio, el tipo de SKU, la descripción o la disponibilidad cada elemento del catálogo.
Usuarios: los metadatos de usuario pueden incluir información como la edad, el sexo, el grado de fidelización y los intereses de cada uno de los usuarios.
Acciones: una acción es una actividad de interacción que puede que quiera recomendar a los clientes. Entre las acciones puede incluirse instalar su aplicación móvil, completar un perfil de pertenencia a grupo, unirse a un programa de fidelización o registrarse para recibir correos electrónicos promocionales. Para la Next-Best-Action receta, se requiere el conjunto de datos Actions. Ninguna otra receta personalizada ni caso de uso de dominio utiliza datos de acciones.
Interacciones de acciones: una interacción de acciones es una evento de interacción entre un usuario y una acción. La Next-Best-Action receta usa estos datos y los datos de tu conjunto de datos de acciones para recomendar acciones a tus usuarios. Ninguna otra receta personalizada ni caso de uso de dominio utiliza datos de Action-interactions.

Amazon Personalize almacena los datos en conjuntos de datos, uno para cada tipo de datos. Cada conjunto de datos tiene requisitos diferentes. Al importar datos en un conjunto de datos de Amazon Personalize, puede optar por importar los registros de forma masiva, individualmente o de ambos modos. Las importaciones masivas implican la importación de una gran cantidad de registros históricos almacenados en uno o más archivos CSV de un bucket de Amazon S3.

Si no tiene datos masivos, puede utilizar operaciones de importación individuales para recopilar datos y transmitir eventos hasta que cumpla los requisitos de entrenamiento de Amazon Personalize y los requisitos de datos del caso de uso o receta del dominio. Para obtener información sobre el registro de eventos, consulte Registro de los eventos en tiempo real para influir en las recomendaciones. Para obtener información sobre la importación de registros individuales, consulte Importación de registros individuales a un conjunto de datos de Amazon Personalize.
Si no está seguro de tener suficientes datos o si tiene dudas sobre la calidad, puede importar los datos a un conjunto de datos de Amazon Personalize y utilizar Amazon Personalize para analizarlos. Para obtener más información, consulte Análisis de la calidad y la cantidad de datos en los conjuntos de datos de Amazon Personalize.

En las siguientes secciones, se proporcionan los requisitos de datos para cada tipo de conjunto de datos de Amazon Personalize y las directrices para preparar datos masivos. Si no tiene datos masivos, consulte las secciones para comprender los datos obligatorios y opcionales que puede importar con operaciones de importación individuales. Si necesita ayuda adicional para formatear sus datos, puede usar Amazon SageMaker AI Data Wrangler (Data Wrangler) para preparar sus datos. Para obtener más información, consulte Preparación e importación de datos masivos con Amazon SageMaker AI Data Wrangler.

Después de finalizar la preparación de los datos, podrá crear un archivo JSON de esquema. Este archivo informa a Amazon Personalize de la estructura de los datos. Para obtener más información, consulte Creación de archivos JSON de esquema para los esquemas de Amazon Personalize.

Temas

Directrices de formato de datos masivos para todos los tipos de datos

Las siguientes directrices y requisitos pueden ayudarle a asegurarse de que los datos masivos tengan el formato correcto.

Sus datos de entrada deben estar en un archivo CSV (valores separados por comas).
La primera fila del archivo CSV debe contener sus encabezados de columnas. No incluya los encabezados entre comillas (").
Las columnas deben tener nombres alfanuméricos únicos. Por ejemplo, no puede agregar un campo GENRES_FIELD_1 y un campo GENRESFIELD1 a la vez.
Si va a importar varios archivos CSV, todos los encabezados de las columnas deben coincidir en todos los archivos.
Asegúrese de tener los campos obligatorios para el tipo de conjunto de datos y asegúrese de que sus nombres cumplan con los requisitos de Amazon Personalize. Por ejemplo, los datos de tus artículos pueden tener una columna llamada ITEM_IDENTIFICATION_NUMBER con IDs para cada uno de tus elementos. Para usar esta columna como un campo ITEM_ID, cambie el nombre de la columna a ITEM_ID. Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Asignar columnas para Amazon Personalize para asegurarse de que sus columnas tengan el nombre correcto.

Para obtener información acerca del uso de Data Wrangler para preparar sus datos, consulte Preparación e importación de datos masivos con Amazon SageMaker AI Data Wrangler.
Cada registro de su archivo CSV debe estar en una sola línea.
Amazon Personalize no admite tipos de datos complejos, como matrices y mapas.
Para que Amazon Personalize utilice datos booleanos al entrenar o filtrar, utilice valores de cadena "True" y "False", o valores numéricos 1 para true y 0 para false.
Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Analizar valor como tipo para convertir los tipos de datos.
Los datos de TIMESTAMP y CREATION_TIMESTAMP deben estar en formato de tiempo UNIX. Para obtener más información, consulte Datos de marca temporal.
Evite incluir caracteres " o caracteres especiales en los datos del ID de elemento, el ID de usuario y el ID de acción.
Si sus datos incluyen caracteres codificados que no son ASCII, su archivo CSV debe estar codificado en formato UTF-8.
Asegúrese de aplicar formato a los datos textuales tal y como se describe en Metadatos de texto no estructurado.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

HRNN-Coldstart

Datos de interacciones de elementos