Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preparación de los datos de entrenamiento para Amazon Personalize
Tras elegir un caso de uso o una receta de dominio y tener en cuenta sus requisitos de datos, estará listo para empezar a preparar sus datos. Amazon Personalize puede utilizar los siguientes tipos de datos:
-
Interacciones entre productos: en Amazon Personalize, una interacción con un artículo es un evento de interacción positiva entre un usuario y un artículo de tu catálogo. Por ejemplo, un usuario que ve una película, ve un anuncio o compra un par de zapatos.
-
Artículos: los metadatos de los artículos pueden incluir información como el precio, el SKU tipo, la descripción o la disponibilidad de cada artículo del catálogo.
-
Usuarios: los metadatos de los usuarios pueden incluir información como la edad, el sexo, la membresía de fidelización y los intereses de cada uno de sus usuarios.
-
Acciones: una acción es una actividad de fidelización que quizás quieras recomendar a tus clientes. Entre las acciones puede incluirse instalar su aplicación móvil, completar un perfil de pertenencia a grupo, unirse a un programa de fidelización o registrarse para recibir correos electrónicos promocionales. Para la receta Next-Best-Action, se requiere el conjunto de datos de acciones. Ninguna otra receta personalizada ni caso de uso de dominio utiliza datos de acciones.
-
Interacciones de acción: una interacción de acción es un evento de interacción entre un usuario y una acción. La receta Next-Best-Action utiliza estos datos y los de su conjunto de datos de acciones para recomendar acciones a los usuarios. Ninguna otra receta personalizada o caso de uso de dominio utiliza datos de interacciones entre acciones.
Amazon Personalize almacena los datos en conjuntos de datos, uno para cada tipo de datos. Cada conjunto de datos tiene requisitos diferentes. Al importar datos a un conjunto de datos de Amazon Personalize, puede optar por importar los registros de forma masiva, individual o de ambos modos. Las importaciones masivas implican la importación de una gran cantidad de registros históricos almacenados en uno o más CSV archivos de un bucket de Amazon S3.
-
Si no tienes datos masivos, puedes utilizar operaciones de importación individuales para recopilar datos y transmitir eventos hasta que cumplas con los requisitos de formación de Amazon Personalize y los requisitos de datos del caso de uso o receta de tu dominio. Para obtener información sobre la grabación de eventos, consulteGrabación de eventos en tiempo real para influir en las recomendaciones. Para obtener información sobre la importación de registros individuales, consulteImportación de registros individuales a un conjunto de datos de Amazon Personalize.
-
Si no está seguro de tener suficientes datos o si tiene dudas sobre su calidad, puede importar los datos a un conjunto de datos de Amazon Personalize y utilizar Amazon Personalize para analizarlos. Para obtener más información, consulte Análisis de la calidad y cantidad de datos en los conjuntos de datos de Amazon Personalize.
En las siguientes secciones se proporcionan los requisitos de datos para cada tipo de conjunto de datos de Amazon Personalize y las pautas para preparar datos masivos. Si no tiene datos masivos, revise las secciones para comprender los datos obligatorios y opcionales que puede importar con operaciones de importación individuales. Si necesita más ayuda para formatear sus datos, puede usar Amazon SageMaker Data Wrangler (Data Wrangler) para prepararlos. Para obtener más información, consulte Preparación e importación de datos masivos con Amazon SageMaker Data Wrangler.
Cuando termine de preparar los datos, estará listo para crear un archivo de esquema. JSON Este archivo informa a Amazon Personalize sobre la estructura de sus datos. Para obtener más información, consulte Creación de JSON archivos de esquema para los esquemas de Amazon Personalize.
Temas
- Directrices sobre el formato de datos masivos para todos los tipos de datos
- Preparar los datos de interacción entre los elementos para el entrenamiento
- Preparar los metadatos de los elementos para la formación
- Preparación de los metadatos de los usuarios para la formación
- Preparar los metadatos de las acciones para el entrenamiento
- Preparación de datos de acción e interacción para el entrenamiento
Directrices sobre el formato de datos masivos para todos los tipos de datos
Las siguientes directrices y requisitos pueden ayudarle a asegurarse de que los datos masivos tengan el formato correcto.
-
Los datos de entrada deben estar en un archivo CSV (valores separados por comas).
-
La primera fila del CSV archivo debe contener los encabezados de las columnas. No incluya los encabezados entre comillas (").
-
Las columnas deben tener nombres alfanuméricos únicos. Por ejemplo, no puede agregar un campo
GENRES_FIELD_1
y un campoGENRESFIELD1
a la vez. -
Asegúrese de tener los campos obligatorios para el tipo de conjunto de datos y asegúrese de que sus nombres cumplan con los requisitos de Amazon Personalize. Por ejemplo, los datos de tus artículos pueden tener una columna llamada
ITEM_IDENTIFICATION_NUMBER
con IDs para cada uno de tus elementos. Para usar esta columna como un campo ITEM _ID, cámbiele el nombre a.ITEM_ID
Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Asignar columnas para Amazon Personalize para asegurarse de que sus columnas tengan el nombre correcto.Para obtener información acerca del uso de Data Wrangler para preparar sus datos, consulte Preparación e importación de datos masivos con Amazon SageMaker Data Wrangler.
-
Cada registro del CSV archivo debe estar en una sola línea.
-
Amazon Personalize no admite tipos de datos complejos, como matrices y mapas.
-
Para que Amazon Personalize utilice datos booleanos al entrenar o filtrar, utilice valores de cadena
"False"
o valores"True"
numéricos1
para los valores verdadero y0
falso. -
Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Analizar valor como tipo para convertir los tipos de datos.
-
TIMESTAMP
yCREATION_TIMESTAMP
los datos deben estar en formato de UNIXépoca y hora. Para obtener más información, consulte Datos de marca temporal. -
Evite incluir
"
caracteres o caracteres especiales en los datos del identificador del elemento, el identificador de usuario y el identificador de acción. -
Si los datos incluyen caracteres no ASCII codificados, el CSV archivo debe estar codificado en formato UTF -8.
-
Asegúrese de aplicar formato a los datos textuales tal y como se describe en Metadatos de texto no estructurado.