Requisitos de datos de formación para Clean Rooms ML - AWS Clean Rooms

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Requisitos de datos de formación para Clean Rooms ML

Para crear correctamente un modelo similar, los datos de entrenamiento deben cumplir los siguientes requisitos:

  • Los datos de entrenamiento deben estar en JSON formato Parquet O. CSV

  • Los datos de entrenamiento deben estar catalogados en AWS Glue. Para obtener más información, consulte Primeros pasos con AWS Glue Data Catalog en la AWS Glue Guía para desarrolladores. Recomendamos usar AWS Glue rastreadores para crear las tablas, ya que el esquema se deduce automáticamente.

  • El bucket de Amazon S3 que contiene los datos de entrenamiento y los datos iniciales está en el mismo lugar. AWS región como sus otros recursos de aprendizaje automático de Clean Rooms.

  • Los datos de entrenamiento deben contener al menos 100 000 usuarios únicos IDs con al menos dos interacciones entre elementos cada uno.

  • Los datos de entrenamiento deben contener al menos 1 millón de registros.

  • El esquema especificado en la CreateTrainingDataset acción debe alinearse con el esquema definido cuando AWS Glue se creó la tabla.

  • Los campos obligatorios, tal como se definen en la tabla proporcionada, se definen en la CreateTrainingDataset acción.

    Tipo de campo Tipos de datos compatibles Obligatoria Descripción
    USER_ID cadena, int, bigint Un identificador único para cada usuario del conjunto de datos. Debe ser un valor de información de identificación no personal (PII). Puede ser un identificador codificado o un identificador de cliente.
    ITEM_ID cadena, int, bigint Un identificador único para cada elemento con el que interactúa el usuario.
    TIMESTAMP bigint, int, timestamp La hora en que un usuario interactuó con el elemento. Los valores deben estar en el formato Unix de época y tiempo en segundos.
    CATEGORICAL_FEATURE string, int, float, bigint, double, boolean, array No Captura datos categóricos relacionados con el usuario o el elemento. Esto puede incluir datos como el tipo de evento (como hacer clic o comprar), los datos demográficos de los usuarios (grupo de edad, sexo (anonimizado), la ubicación del usuario (ciudad, país, anonimizado), la categoría del artículo (como ropa o artículos electrónicos) o la marca del artículo.
    NUMERICAL_FEATURE double, float, int, bigint No Captura datos numéricos relacionados con el usuario o el elemento. Esto puede incluir datos como el historial de compras del usuario (importe total gastado), el precio del artículo, el número de veces que se visita un artículo o las valoraciones de los usuarios sobre los artículos.
  • Opcionalmente, puedes proporcionar hasta 10 características categóricas o numéricas en total.

El siguiente es un ejemplo de un conjunto de datos de entrenamiento válido en CSV formato.

USER_ID,ITEM_ID,TIMESTAMP, EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10