Procesamiento de los datos y su importación en Amazon Personalize - Amazon Personalize

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Procesamiento de los datos y su importación en Amazon Personalize

Cuando haya terminado de analizar y transformar sus datos, estará listo para procesarlos e importarlos en Amazon Personalize.

  • Procesamiento de datos: el procesamiento de los datos aplica la transformación a todo el conjunto de datos y la envía al destino que especifique. En este caso, especifique un bucket de Amazon S3.

  • Importación de datos a Amazon Personalize: para importar datos procesados a Amazon Personalize, ejecute un cuaderno de Jupyter incluido en SageMaker Studio Classic. Este cuaderno crea sus conjuntos de datos de Amazon Personalize e importa sus datos en ellos.

Procesamiento de datos

Antes de importar datos en Amazon Personalize, debe aplicar la transformación a todo el conjunto de datos y enviarlos a un bucket de Amazon S3. Para ello, debe crear un nodo de destino con el destino establecido en un bucket de Amazon S3 y, a continuación, lanzar un trabajo de procesamiento para la transformación.

Para step-by-step obtener instrucciones sobre cómo especificar un destino y lanzar un trabajo de proceso, consulte Iniciar trabajos de procesamiento con unos pocos clics mediante Amazon SageMaker Data Wrangler. Cuando añada un destino, elija Amazon S3. Utilizará esta ubicación al importar los datos procesados en Amazon Personalize.

Cuando termine de procesar los datos, estará listo para importarlos del bucket de Amazon S3 a Amazon Personalize.

Importación de datos en Amazon Personalize

Tras procesar los datos, estará listo para importarlos en Amazon Personalize. Para importar los datos procesados a Amazon Personalize, ejecute un Jupyter Notebook incluido en SageMaker Studio Classic. Este cuaderno crea sus conjuntos de datos de Amazon Personalize e importa sus datos en ellos.

Para importar datos procesados en Amazon Personalize
  1. Para la transformación que desee exportar, elija Exportar a y Amazon Personalize (mediante el cuaderno de Jupyter).

  2. Modifique el cuaderno para especificar el bucket de Amazon S3 que utilizó como destino de los datos para el trabajo de procesamiento. Si lo desea, especifique el dominio para su grupo de conjuntos de datos. De manera predeterminada, el cuaderno crea un grupo de conjuntos de datos personalizados.

  3. Revise las celdas del cuaderno que crean el esquema. Compruebe que los campos del esquema tienen los tipos y atributos esperados antes de ejecutar la celda.

    • Compruebe que los campos que admiten datos nulos incluyen null en la lista de tipos. En el ejemplo siguiente se muestra cómo añadir null para un campo.

      { "name": "GENDER", "type": [ "null", "string" ], "categorical": true }
    • Compruebe que los campos categóricos tengan el atributo categórico establecido en verdadero. En el siguiente ejemplo se muestra cómo marcar un campo categórico.

      { "name": "SUBSCRIPTION_MODEL", "type": "string", "categorical": true }
    • Compruebe que los campos textuales tengan el atributo textual establecido en verdadero. En el siguiente ejemplo se muestra cómo marcar un campo como textual.

      { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true }
  4. Ejecute el cuaderno para crear un esquema y un conjunto de datos, e importe los datos en el conjunto de datos de Amazon Personalize. Utiliza el bloc de notas del mismo modo que lo haría con un bloc de notas fuera de SageMaker Studio Classic. Para obtener información sobre cómo ejecutar los cuadernos de Jupyter, consulte Ejecución de código. Para obtener información sobre las libretas de SageMaker Studio Classic, consulte Uso de Amazon SageMaker Notebooks en la Guía para SageMaker desarrolladores de Amazon.

    Después de completar el cuaderno, si ha importado datos de interacciones, estará listo para crear generadores de recomendaciones o recursos personalizados. O puede repetir el proceso con un conjunto de datos de elementos o un conjunto de datos de usuarios.