Conjuntos de datos y esquemas - Amazon Personalize

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conjuntos de datos y esquemas

Los conjuntos de datos de Amazon Personalize son contenedores de datos. Existen tres tipos de conjuntos de datos:

  • Usuarios: este conjunto de datos almacena metadatos sobre sus usuarios. Esto podría incluir información como la edad, el sexo o el grado de fidelización, que pueden ser señales importantes en los sistemas de personalización.

  • Elementos: este conjunto de datos almacena metadatos sobre sus elementos. Esto podría incluir información como el precio, el tipo de SKU o la disponibilidad.

  • Interacciones: este conjunto de datos almacena datos históricos y en tiempo real de las interacciones entre los usuarios y los elementos. En Amazon Personalize, una interacción es un evento que se graba y, a continuación, se importa como datos de entrenamiento. Tanto para los grupos de conjuntos de datos de dominio como para los grupos de conjuntos de datos personalizados, debe crear como mínimo un conjunto de datos de interacciones.

Para todos los casos de uso (grupos de conjuntos de datos de dominio) y recetas (grupos de conjuntos de datos personalizados), los datos de sus interacciones deben incluir lo siguiente:

  • Como mínimo, 1000 registros de interacciones de los usuarios que interactúan con los elementos de su catálogo. Estas interacciones pueden provenir de importaciones masivas, de eventos transmitidos o de ambos.

  • Un mínimo de 25 seudónimos únicos con al menos dos interacciones para cada uno.

Para obtener recomendaciones de calidad, le recomendamos que tenga al menos 50 000 interacciones de al menos 1000 usuarios con dos o más interacciones cada uno.

Los grupos de conjuntos de datos de dominio y los grupos de conjuntos de datos personalizados solo pueden tener uno de cada tipo de conjunto de datos. Antes de crear un conjunto de datos, defina un esquema para ese conjunto de datos. Un esquema indica a Amazon Personalize la estructura de sus datos y permite a Amazon Personalize analizar los datos. Un esquema tiene una clave de nombre cuyo valor debe coincidir con el tipo de conjunto de datos. Una vez que se haya creado el esquema, no se podrá realizar cambios en el mismo.

Para los grupos de conjuntos de datos de dominio, cada tipo de conjunto de datos tiene un esquema predeterminado con campos obligatorios y palabras clave reservadas. Cada vez que cree un conjunto de datos, puede utilizar el esquema de dominio existente o crear uno nuevo modificando el esquema predeterminado existente. Usa el esquema predeterminado como guía para saber qué datos importar para tu dominio. Una vez definido el esquema y creado el conjunto de datos, no podrá realizar cambios en el esquema.

Si va a importar datos de forma masiva, debe guardarlos en formato CSV (valores separados por comas). La primera fila del archivo CSV debe contener encabezados de columna, que deben coincidir con el esquema.

Requisitos de formato del esquema

Al crear un esquema para un conjunto de datos en un grupo de conjunto de datos de dominio o grupo de conjunto de datos personalizado, debe seguir estas pautas:

  • Debe definir el esquema en formato Avro. Para obtener información sobre los tipos de datos de Avro que admitimos, consulteTipos de datos de esquemas.

  • Los campos del esquema pueden aparecer en cualquier orden, pero deben coincidir con el orden de los encabezados de las columnas correspondientes del archivo CSV.

  • Debe definir los campos obligatorios como sus tipos de datos obligatorios. Los campos de cadena categóricos reservados deben tenercategorical un valor detrue, mientras que los campos de cadena reservados no pueden ser categóricos. Las palabras clave no pueden estar en tus datos. Los conjuntos de datos de grupos de conjuntos de datos de dominio tienen requisitos adicionales en función del dominio y del tipo de conjunto de datos. Los conjuntos de datos de grupos de conjuntos de datos personalizados tienen requisitos adicionales según el tipo.

  • Los esquemas deben ser archivos JSON planos sin estructuras anidadas. Por ejemplo, un campo no puede ser el padre de varios subcampos.

  • Los campos del esquema deben tener nombres alfanuméricos exclusivos. Por ejemplo, no puede añadir unGENRES_FIELD_1 campo y unGENRESFIELD1 campo a la vez.

  • Los esquemas de Amazon Personalize no admiten tipos complejos, como matrices y mapas.

  • Para los campos con varios valores, incluidos los metadatos categóricos y los datos de impresiones, utilice la cadena de tipos de datos y separe cada valor con la barra vertical, el carácter '|'. Para los campos categóricos, añada"categorical": true.

Tipos de datos de esquemas

Los esquemas de Amazon Personalize admiten los siguientes tipos de Avro para los campos:

  • float

  • double

  • int

  • long

  • string

  • booleano (valorestrue yfalse debe estar en minúsculas en los datos)

  • null

Algunos campos obligatorios y reservados admiten datos nulos. Agregar unnull tipo a un campo permite utilizar datos imperfectos (por ejemplo, metadatos con valores en blanco) para generar recomendaciones. Para obtener información sobre los campos que admiten datos nulos, consulteConjuntos de datos y esquemas de dominio oConjuntos de datos y esquemas personalizados. El siguiente ejemplo muestra cómo añadir un tipo nulo para un campo de género.

{ "name": "GENDER", "type": [ "null", "string" ], "categorical": true }