Conjuntos de datos y esquemas - Amazon Personalize

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conjuntos de datos y esquemas

Los conjuntos de datos de Amazon Personalize son contenedores de datos. Existen tres tipos de conjuntos de datos:

  • Usuarios: este conjunto de datos almacena metadatos sobre sus usuarios. Esto podría incluir información como la edad, el sexo o el grado de fidelización, que pueden ser señales importantes en los sistemas de personalización.

  • Elementos: este conjunto de datos almacena metadatos sobre sus elementos. Esto podría incluir información como el precio, el tipo de SKU o la disponibilidad.

  • Interacciones: este conjunto de datos almacena datos históricos y en tiempo real de las interacciones entre los usuarios y los elementos. En Amazon Personalize, una interacción es un evento que se graba y, a continuación, se importa como datos de entrenamiento. Tanto para los grupos de conjuntos de datos de dominio como para los grupos de conjuntos de datos personalizados, debe crear como mínimo un conjunto de datos de interacciones.

Amazon Personalize almacena los datos en conjuntos de datos hasta que los elimine. Para todos los casos de uso (grupos de conjuntos de datos de dominio) y recetas (grupos de conjuntos de datos personalizados), los datos de sus interacciones deben incluir lo siguiente:

  • Como mínimo, 1000 registros de interacciones de los usuarios que interactúan con los elementos de su catálogo. Estas interacciones pueden provenir de importaciones masivas, de eventos transmitidos o de ambas cosas.

  • Un mínimo de 25 seudónimos únicos con al menos dos interacciones para cada uno.

Para obtener recomendaciones de calidad, le recomendamos que tenga al menos 50 000 interacciones de al menos 1000 usuarios con dos o más interacciones cada uno.

Los grupos de conjuntos de datos de dominio y los grupos de conjuntos de datos personalizados solo pueden tener uno de cada tipo de conjunto de datos. Antes de crear un conjunto de datos, defina un esquema para ese conjunto de datos. Un esquema indica a Amazon Personalize la estructura de sus datos y permite que Amazon Personalize analice los datos. Un esquema tiene una clave de nombre cuyo valor debe coincidir con el tipo de conjunto de datos. Después de crear un esquema, no podrá modificarlo.

Para los grupos de conjuntos de datos de dominio, cada tipo de conjunto de datos tiene un esquema predeterminado con campos obligatorios y palabras clave reservadas. Cada vez que cree un conjunto de datos, puede utilizar el esquema de dominio existente o crear uno nuevo modificando el esquema predeterminado existente. Usa el esquema predeterminado como guía para saber qué datos importar para tu dominio. Una vez que haya definido el esquema y creado el conjunto de datos, no podrá realizar cambios en el esquema.

Si importas datos de forma masiva, los datos deben almacenarse en formato de valores separados por comas (CSV). La primera fila del archivo CSV debe contener encabezados de columna, que deben coincidir con el esquema.

Requisitos de formato de esquemas y datos

Al crear un esquema para un conjunto de datos en un grupo de conjuntos de datos de dominio o un grupo de conjuntos de datos personalizados, debe seguir estas pautas:

  • Debe definir el esquema en formato Avro. Para obtener información sobre los tipos de datos de Avro que admitimos, consulteTipos de datos de esquema.

  • Los campos del esquema pueden aparecer en cualquier orden, pero deben coincidir con el orden de los encabezados de las columnas correspondientes del archivo CSV.

  • Los esquemas deben ser archivos JSON planos sin estructuras anidadas. Por ejemplo, un campo no puede ser el padre de varios subcampos.

  • Los esquemas de Amazon Personalize no admiten tipos complejos, como matrices y mapas.

  • Los campos del esquema deben tener nombres alfanuméricos exclusivos. Por ejemplo, no puede añadir un GENRES_FIELD_1 campo y un GENRESFIELD1 campo a la vez.

  • Debe definir los campos obligatorios como sus tipos de datos obligatorios. Los campos de cadena categórica reservados deben tener el categorical atributo establecido entrue, mientras que los campos de cadena reservados no pueden ser categóricos. Las palabras clave no pueden estar en tus datos.

  • Si agrega su propio tipo de campo de metadatosstring, debe incluir el categorical atributo o el textual atributo (solo los esquemas de elementos admiten campos con el atributo textual). De lo contrario, Amazon Personalize no utilizará el campo al entrenar un modelo.

  • Amazon Personalize no utiliza datos boolean tipográficos al entrenar o filtrar las recomendaciones. Para que Amazon Personalize utilice datos booleanos al entrenar o filtrar, utilice un campo de tipo String y utilice los valores "True" y "False" en sus datos. O puede usar el tipo int o long y los valores 0 y1.

  • Los campos textuales deben ser del tipo string y tener el textual atributo establecido en. true Para obtener más información sobre los datos de texto no estructurados, consulteMetadatos de texto no estructurado.

  • Para los campos con varios valores, incluidos los metadatos categóricos y los datos de impresiones, utilice la cadena de tipos de datos y separe cada valor con la barra vertical, el carácter '|'. Para los campos categóricos, añada"categorical": true.

Los conjuntos de datos de grupos de conjuntos de datos de dominio tienen requisitos adicionales en función del dominio y del tipo de conjunto de datos. Los conjuntos de datos de grupos de conjuntos de datos personalizados tienen requisitos adicionales según el tipo.

Tipos de datos de esquema

Los esquemas de Amazon Personalize admiten los siguientes tipos de Avro para los campos:

  • float

  • double

  • int

  • long

  • string

  • booleano

  • null

Algunos campos obligatorios y reservados admiten datos nulos. Agregar un null tipo a un campo permite utilizar datos imperfectos (por ejemplo, metadatos con valores en blanco) para generar recomendaciones. Para obtener información sobre los campos que admiten datos nulos, consulte Conjuntos de datos y esquemas de dominio oConjuntos de datos y esquemas personalizados. El siguiente ejemplo muestra cómo agregar un tipo nulo para un campo GENDER.

{ "name": "GENDER", "type": [ "null", "string" ], "categorical": true }