Importancia de la transformación de funciones

Imagine un modelo de aprendizaje automático que decide si una transacción con tarjeta de crédito es fraudulenta o no. Basándose en la información de fondo de la aplicación y en el análisis de datos, puede decidir qué campos de datos (o funciones) son importantes para incluir en los datos de entrada. Por ejemplo, es importante proporcionar el importe de la transacción, el nombre y la dirección del comerciante y la dirección del propietario de la tarjeta de crédito al proceso de aprendizaje. Por otra parte, un ID de transacciones generadas de forma aleatoria no aporta información (si sabemos que es aleatorio) y no es útil.

Una vez que haya decidido los campos en los que las incluirá, transforme estas funciones para ayudar al proceso de aprendizaje. Las transformaciones añaden experiencia de fondo a los datos de entrada, de manera que el modelo de aprendizaje automático se puede beneficiar de esta experiencia. Por ejemplo, la siguiente dirección de comerciante está representada como cadena:

"123 Main Street, Seattle, WA 98101"

Por sí sola, la dirección tiene un poder de expresión limitado: solo es útil para patrones de aprendizaje asociados a esa dirección exacta. Sin embargo, si se divide en partes constituyentes, se pueden crear funciones adicionales como "Address" (123 Main Street), "City" (Seattle), "State" (WA) y "Zip" (98101). De este modo, el algoritmo de aprendizaje puede agrupar transacciones más dispares y descubrir patrones más amplios; quizás algunos códigos postales de comerciantes experimenten actividades más fraudulentas que otros.

Para obtener más información sobre el enfoque y el proceso de la transformación de funciones, consulte Conceptos de aprendizaje automático.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Transformaciones de datos para aprendizaje automático

Transformaciones de características con recetas de datos