Análisis de la calidad y cantidad de datos en conjuntos de datos - Amazon Personalize

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Análisis de la calidad y cantidad de datos en conjuntos de datos

Después de importar datos en un conjunto de datos de interacciones de elementos, usuarios o elementos, puede usar la consola de Amazon Personalize para analizar los datos. Puede obtener información sobre sus datos a través de la información de los datos y las estadísticas de columnas y filas. Además, puede saber qué medidas puede tomar para mejorar sus datos. Estas acciones pueden ayudarlo a cumplir con los requisitos de recursos de Amazon Personalize, como los requisitos de entrenamiento de modelos, o pueden mejorar las recomendaciones.

importante

No se puede usar la consola Amazon Personalize para analizar los datos de un conjunto de datos de interacciones de acción o acciones.

Tras realizar los cambios recomendados, puede volver a importar los datos y comprobar si ha resuelto algún problema o ha mejorado las estadísticas del conjunto de datos. Para obtener información sobre la actualización de datos, consulte Importación de más datos de entrenamiento a conjuntos de datos.

Si no ve ninguna información, sus datos se ajustan a las expectativas de datos de Amazon Personalize. Puede analizar los datos de un grupo de conjuntos de datos de dominio o de un grupo de conjuntos de datos personalizados.

Al generar información y calcular estadísticas, Amazon Personalize tiene en cuenta todos los datos masivos y transmitidos de usuarios no anónimos. Los eventos de usuarios anónimos no se tienen en cuenta hasta que los asocie a un userId. Para obtener más información, consulte Registro de eventos para usuarios anónimos.

Permisos necesarios para analizar datos

Si concede a los usuarios acceso completo a Amazon Personalize, no será necesario cambiar los permisos. Si concede a sus usuarios solo los permisos necesarios para realizar una tarea en Amazon Personalize, su política AWS Identity and Access Management (IAM) debe incluir las siguientes acciones adicionales de información de datos.

  • personalizar: CreateData InsightsJob

  • personalizar: ListData InsightsJob

  • personalizar: DescribeData InsightsJob

  • personalizar: GetData Insight

Información sobre los datos

La siguiente es la posible información de datos que puede generar en Amazon Personalize.

Información Acción Conjuntos de datos relacionados
El conjunto de datos de interacciones solo tiene X interacciones. El entrenamiento de modelos requiere un mínimo de 1000 interacciones. Se recomiendan como mínimo 50 000. Importe registros de interacciones únicas adicionales Y antes de entrenar un modelo. Interacciones de elementos
El conjunto de datos de interacciones solo tiene X usuarios únicos con dos o más interacciones. El entrenamiento de modelos requiere al menos 25 de estos usuarios. Se recomiendan como mínimo 1000. Importe al menos 2 registros de interacciones para cada uno de los usuarios adicionales Y. Interacciones de elementos
El X % de los elementos del conjunto de datos de elementos no tienen interacciones en el conjunto de datos de interacciones, por lo que es posible que no se recomienden.

Asegúrese de importar todos los datos de interacciones y compruebe si no coinciden los ID de sus elementos y de los conjuntos de datos de interacciones. Consulte las estadísticas de los conjuntos de datos a continuación para sus conjuntos de datos de interacciones y elementos para asegurarse de que ha importado el número de filas esperado. Si su caso de uso o receta utiliza la exploración, modifique la configuración de exploración para recomendar más elementos sin datos de interacciones.

Interacciones de elementos y elementos
El X % de los usuarios del conjunto de datos de usuarios no tienen interacciones en el conjunto de datos de interacciones. Estos usuarios recibirán recomendaciones de elementos populares.

Asegúrese de importar todos los datos de sus interacciones y compruebe si no coinciden los ID de los usuarios y los de los conjuntos de datos de interacciones. Consulte las estadísticas de los conjuntos de datos a continuación para sus usuarios y conjuntos de datos de interacciones para asegurarse de que ha importado la cantidad de filas esperada. Importe cualquier interacción adicional para que más usuarios tengan datos de interacciones.

Interacciones de elementos y usuarios
El conjunto de datos <Users or Items or Interactions> tiene un X % de filas en las que falta un valor. Esto puede afectar negativamente a las recomendaciones. Recomendamos que todos los campos obligatorios y opcionales estén completados al menos en un 70 %.

Importe registros completos adicionales o vuelva a importar datos sin filas incompletas, o a importar datos de nuevo en los que falten valores y los sustituya por otros datos, como el promedio de las columnas numéricas o el valor más común de las columnas categóricas.

Cualquiera
Las siguientes columnas del <datasetType>conjunto de datos están completas en menos del 70%: <ColumnName, ColumnName... >. Si estos datos se incluyen en el entrenamiento, las recomendaciones se pueden ver afectadas negativamente. Recomendamos que las columnas que permiten valores nulos estén completas al menos en un 70 %.

Importe registros completos adicionales o vuelva a importar datos sin filas incompletas, o a importar datos de nuevo en los que falten valores y los sustituya por otros datos, como el promedio de las columnas numéricas o el valor más común de las columnas categóricas.

Cualquiera
Las siguientes columnas (numéricas) tienen valores atípicos: <ColumnName, ColumnName... >. Los valores atípicos no son siempre un problema, pero a veces afectan negativamente a las recomendaciones.

Con las Estadísticas de columna que aparecen a continuación, compruebe si los valores mínimo y máximo de estas columnas coinciden con sus expectativas. Si estos valores son inesperados, compruebe si hay imprecisiones en los datos de estas columnas, y revise la recopilación y el procesamiento de datos para ver si hay problemas.

Cualquiera
Las siguientes columnas tienen más de 1000 categorías posibles: <ColumnName, ColumnName... >. Si estos datos se incluyen en la formación, pueden afectar negativamente a las recomendaciones: <ColumnName, ColumnName... >.

Revise sus datos categóricos para ver si hay problemas, como categorías duplicadas causadas por variaciones en la ortografía. Resuelva cualquier imprecisión y vuelva a importar los datos.

Cualquiera
Las siguientes columnas de metadatos textuales están completas en menos del 85% y no se utilizarán en el entrenamiento con modelos: <ColumnName, ColumnName... >.

Importe filas adicionales o vuelva a importar las filas con datos de texto para estas columnas.

Items
El conjunto de datos de interacciones tiene más de 10 tipos de eventos únicos, lo que provocará un error en el entrenamiento de modelos.

Revisa la columna de tipos de eventos para ver si hay imprecisiones, como tipos de eventos duplicados causados por variaciones ortográficas. Elimine los tipos de eventos innecesarios y vuelva a importar los datos.

Interacciones de elementos
El conjunto de datos de interacciones tiene la misma marca de tiempo para todos los registros. Si usa una receta USER_SEGMENTATION y todos los registros tienen la misma marca de tiempo, se producirá un error en el entrenamiento del modelo.

Compruebe sus datos para ver si hay problemas con las marcas de tiempo y reemplace las marcas de tiempo duplicadas por marcas de tiempo únicas.

Interacciones de elementos

Visualización de estadísticas e información del conjunto de datos

Para ver información y estadísticas sobre sus datos en los conjuntos de datos de Amazon Personalize, navegue hasta los conjuntos de datos en la consola de Amazon Personalize y elija la opción de ejecutar análisis.

Para ver información y estadísticas
  1. Abra la consola de Amazon Personalize en https://console.aws.amazon.com/personalize/home e inicie sesión en su cuenta.

  2. En la página Grupos de conjuntos de datos, elija su grupo de conjuntos de datos.

  3. En el panel de navegación, elija Análisis de datos en Conjuntos de datos.

  4. En la parte superior derecha, elija Ejecutar análisis. Amazon Personalize comienza a analizar sus datos. Este proceso puede tardar hasta 15 minutos. Si se realiza correctamente, los resultados aparecen en esta página.

  5. En Información, utilice lo siguiente para filtrar la información que aparece.

    • Para encontrar información que incluya un lenguaje específico, introduzca sus criterios en Buscar información. A medida que escriba texto, la lista se actualizará para incluir solo la información con la cadena exacta en la información o la acción recomendada.

    • Para filtrar la información por tipo de conjunto de datos, cambie Todos los conjuntos de datos por el tipo de conjunto de datos específico. La lista se actualiza para incluir solo información relacionada con este conjunto de datos.

  6. Para ver las estadísticas de un conjunto de datos, haga lo siguiente.

    • Para ver los detalles generales y las estadísticas de un conjunto de datos, como el número de filas, los usuarios únicos y los elementos únicos de un conjunto de datos de interacciones, amplíe la sección correspondiente al conjunto de datos.

    • Para ver las estadísticas detalladas de una columna, amplíe la sección del conjunto de datos, elija Estadísticas a nivel de columna y pulse el botón de opción de la columna.

  7. Corrija cualquier problema en los datos, impórtelos de nuevo y ejecute otro análisis para verificarlos. Para obtener más información sobre la importación de datos, consulte Importación de más datos de entrenamiento a conjuntos de datos.