Preparación de los datos de entrenamiento para Amazon Personalize - Amazon Personalize

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de los datos de entrenamiento para Amazon Personalize

Tras elegir un caso de uso o una receta de dominio y tener en cuenta sus requisitos de datos, estará listo para empezar a preparar sus datos. Amazon Personalize puede utilizar los siguientes tipos de datos:

  • Interacciones entre productos: en Amazon Personalize, una interacción con un artículo es un evento de interacción positiva entre un usuario y un artículo de tu catálogo. Por ejemplo, un usuario que ve una película, ve un anuncio o compra un par de zapatos.

  • Artículos: los metadatos de los artículos pueden incluir información como el precio, el SKU tipo, la descripción o la disponibilidad de cada artículo del catálogo.

  • Usuarios: los metadatos de los usuarios pueden incluir información como la edad, el sexo, la membresía de fidelización y los intereses de cada uno de sus usuarios.

  • Acciones: una acción es una actividad de fidelización que quizás quieras recomendar a tus clientes. Entre las acciones puede incluirse instalar su aplicación móvil, completar un perfil de pertenencia a grupo, unirse a un programa de fidelización o registrarse para recibir correos electrónicos promocionales. Para la receta Next-Best-Action, se requiere el conjunto de datos de acciones. Ninguna otra receta personalizada ni caso de uso de dominio utiliza datos de acciones.

  • Interacciones de acción: una interacción de acción es un evento de interacción entre un usuario y una acción. La receta Next-Best-Action utiliza estos datos y los de su conjunto de datos de acciones para recomendar acciones a los usuarios. Ninguna otra receta personalizada o caso de uso de dominio utiliza datos de interacciones entre acciones.

Amazon Personalize almacena los datos en conjuntos de datos, uno para cada tipo de datos. Cada conjunto de datos tiene requisitos diferentes. Al importar datos a un conjunto de datos de Amazon Personalize, puede optar por importar los registros de forma masiva, individual o de ambos modos. Las importaciones masivas implican la importación de una gran cantidad de registros históricos almacenados en uno o más CSV archivos de un bucket de Amazon S3.

En las siguientes secciones se proporcionan los requisitos de datos para cada tipo de conjunto de datos de Amazon Personalize y las pautas para preparar datos masivos. Si no tiene datos masivos, revise las secciones para comprender los datos obligatorios y opcionales que puede importar con operaciones de importación individuales. Si necesita más ayuda para formatear sus datos, puede usar Amazon SageMaker Data Wrangler (Data Wrangler) para prepararlos. Para obtener más información, consulte Preparación e importación de datos masivos con Amazon SageMaker Data Wrangler.

Cuando termine de preparar los datos, estará listo para crear un archivo de esquema. JSON Este archivo informa a Amazon Personalize sobre la estructura de sus datos. Para obtener más información, consulte Creación de JSON archivos de esquema para los esquemas de Amazon Personalize.

Directrices sobre el formato de datos masivos para todos los tipos de datos

Las siguientes directrices y requisitos pueden ayudarle a asegurarse de que los datos masivos tengan el formato correcto.

  • Los datos de entrada deben estar en un archivo CSV (valores separados por comas).

  • La primera fila del CSV archivo debe contener los encabezados de las columnas. No incluya los encabezados entre comillas (").

  • Las columnas deben tener nombres alfanuméricos únicos. Por ejemplo, no puede agregar un campo GENRES_FIELD_1 y un campo GENRESFIELD1 a la vez.

  • Asegúrese de tener los campos obligatorios para el tipo de conjunto de datos y asegúrese de que sus nombres cumplan con los requisitos de Amazon Personalize. Por ejemplo, los datos de tus artículos pueden tener una columna llamada ITEM_IDENTIFICATION_NUMBER con IDs para cada uno de tus elementos. Para usar esta columna como un campo ITEM _ID, cámbiele el nombre a. ITEM_ID Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Asignar columnas para Amazon Personalize para asegurarse de que sus columnas tengan el nombre correcto.

    Para obtener información acerca del uso de Data Wrangler para preparar sus datos, consulte Preparación e importación de datos masivos con Amazon SageMaker Data Wrangler.

  • Cada registro del CSV archivo debe estar en una sola línea.

  • Amazon Personalize no admite tipos de datos complejos, como matrices y mapas.

  • Para que Amazon Personalize utilice datos booleanos al entrenar o filtrar, utilice valores de cadena "False" o valores "True" numéricos 1 para los valores verdadero y 0 falso.

  • Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Analizar valor como tipo para convertir los tipos de datos.

  • TIMESTAMPy CREATION_TIMESTAMP los datos deben estar en formato de UNIXépoca y hora. Para obtener más información, consulte Datos de marca temporal.

  • Evite incluir " caracteres o caracteres especiales en los datos del identificador del elemento, el identificador de usuario y el identificador de acción.

  • Si los datos incluyen caracteres no ASCII codificados, el CSV archivo debe estar codificado en formato UTF -8.

  • Asegúrese de aplicar formato a los datos textuales tal y como se describe en Metadatos de texto no estructurado.