Requisitos de dados de treinamento para Clean Rooms ML - AWS Clean Rooms

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Requisitos de dados de treinamento para Clean Rooms ML

Para criar com sucesso um modelo semelhante, seus dados de treinamento devem atender aos seguintes requisitos:

  • Os dados de treinamento devem estar no JSON formato Parquet ou. CSV

  • Seus dados de treinamento devem ser catalogados em AWS Glue. Para obter mais informações, consulte Introdução ao AWS Glue Data Catalog no AWS Glue Guia do desenvolvedor. Recomendamos usar AWS Glue rastreadores para criar suas tabelas porque o esquema é inferido automaticamente.

  • O bucket do Amazon S3 que contém os dados de treinamento e os dados iniciais está no mesmo AWS região como seus outros recursos de ML de salas limpas.

  • Os dados de treinamento devem conter pelo menos 100.000 usuários exclusivos IDs com pelo menos duas interações de itens cada.

  • Os dados do treinamento devem conter pelo menos 1 milhão de registros.

  • O esquema especificado na CreateTrainingDataset ação deve estar alinhado com o esquema definido quando o AWS Glue a tabela foi criada.

  • Os campos obrigatórios, conforme definido na tabela fornecida, são definidos na CreateTrainingDataset ação.

    Tipo de campo Tipos de dados compatíveis Obrigatório Descrição
    USER_ID string, int, bigint Sim Um identificador exclusivo para cada usuário no conjunto de dados. Deve ser um valor de informação não pessoalmente identificável ()PII. Isso pode ser um identificador com hash ou um ID de cliente.
    ITEM_ID string, int, bigint Sim Um identificador exclusivo para cada item com o qual o usuário interage.
    TIMESTAMP bigint, int, timestamp Sim A hora em que um usuário interagiu com o item. Os valores devem estar no formato de tempo de época do Unix em segundos.
    CATEGORICAL_FEATURE string, int, float, bigint, double, booleano, matriz Não Captura dados categóricos relacionados ao usuário ou ao item. Isso pode incluir itens como tipo de evento (como clique ou compra), dados demográficos do usuário (faixa etária, sexo - anônimo), localização do usuário (cidade, país - anonimizado), categoria do item (como roupas ou eletrônicos) ou marca do item.
    NUMERICAL_FEATURE double, float, int, bigint Não Captura dados numéricos relacionados ao usuário ou ao item. Isso pode incluir itens como histórico de compras do usuário (valor total gasto), preço do item, número de vezes que um item é visitado ou avaliações do usuário por itens.
  • Opcionalmente, você pode fornecer até 10 recursos categóricos ou numéricos no total.

Veja a seguir um exemplo de um conjunto de dados de treinamento válido em CSV formato.

USER_ID,ITEM_ID,TIMESTAMP, EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10