Procesamiento de características - Amazon Machine Learning

Ya no actualizamos el servicio Amazon Machine Learning ni aceptamos nuevos usuarios para él. Esta documentación está disponible para los usuarios actuales, pero ya no la actualizamos. Para obtener más información, consulte Qué es Amazon Machine Learning.

Procesamiento de características

Después de conocer los datos a través de resúmenes y visualizaciones de datos, es recomendable transformar las variables aún más para que sean más significativas. Esto se conoce como procesamiento de características. Por ejemplo, supongamos que tiene una variable que captura la fecha y hora a las que se ha producido un evento. Esta fecha y hora nunca volverán a producirse y, por lo tanto, no serán útiles para predecir el destino. Sin embargo, si esta variable se transforma en características que representan la hora del día, el día de la semana y el mes, estas variables podrían ser de utilidad para saber si el evento suele suceder en una hora, semana o mes concretos. Este tipo de procesamiento de características para formar puntos de datos más generalizables de los que aprender pueden ofrecer importantes mejoras a los modelos predictivos.

Otros ejemplos de procesamiento de características comunes:

  • Sustituir datos que faltan o datos no válidos con valores más significativos (por ejemplo, si sabe que un valor que falta para una variable de tipo de producto en realidad significa que se trata de un libro, puede sustituir todos los valores que faltan en el tipo de producto con el valor de un libro). Una estrategia común que se utiliza para separar valores que faltan consiste en sustituir los valores que faltan con la media o valor de mediana. Es importante comprender los datos antes de elegir una estrategia para la sustitución de valores que faltan.

  • Formación cartesiana de productos de una variable con otra. Por ejemplo, si tiene dos variables, por ejemplo, la densidad de la población (urbana, suburbana, rural) y el estado (Washington, Oregón, California), puede haber información útil en las características formadas por un producto cartesiano de estas dos variables, lo que se traduce en características (urban_Washington, suburban_Washington, rural_Washington, urban_Oregon, suburban_Oregon, rural_Oregon, urban_California, suburban_California, rural_California).

  • Transformaciones no lineales, como la colocación de variables numéricas en categorías. En muchos casos, la relación entre una característica numérica y el destino no es lineal (el valor de la característica no aumenta ni disminuye de forma monótona con el destino). En estos casos, puede ser útil guardar la característica numérica en características categóricas que representen distintos rangos de la característica numérica. A continuación, cada característica categórica (contenedor) pueden modelarse como si tuviera su propia relación lineal con el destino. Por ejemplo, supongamos que sabe que la característica numérica continua "age" no está linealmente correlacionada con la probabilidad de comprar un libro. Puede guardar la edad en características categóricas que podrían ser capaces de captar la relación con el destino con más precisión. La cantidad óptima de contenedores para una variable numérica depende de las características de la variable y su relación en el destino y se determina mejor con la experimentación. Amazon ML sugiere el número óptimo de contenedores para una característica numérica en función de las estadísticas de datos en la receta sugerida. Consulte la Guía para desarrolladores para obtener más información acerca de la receta sugerida.

  • Características específicas de dominio (por ejemplo, dispone de longitud, amplitud y altura como variables independientes; puede crear una nueva característica de volumen para que sea un producto de estas tres variables).

  • Características específicas de variables. Algunos tipos de variables como, por ejemplo, características de texto, características que capturan la estructura de una página web o la estructura de una frase, tienen formas genéricas de procesamiento que ayudan a extraer estructura y contexto. Por ejemplo, formar n-grams a partir del texto "the fox jumped over the fence" se pueden representar con unigrams: the, fox, jumped, over, fence o bigrams: the fox, fox jumped, jumped over, over the, the fence.

Incluir características más relevantes ayuda a mejorar el poder de predicción. Es evidente que no siempre es posible conocer de antemano las características con influencia de "señal" o predictiva. Por lo tanto, es conveniente incluir todas las características que podrían estar relacionadas con la etiqueta de destino y dejar que el algoritmo de aprendizaje de modelos seleccione las características con las correlaciones más fuertes. En Amazon ML, el procesamiento de características se puede especificar en la receta al crear un modelo. Consulte la Guía para desarrolladores para obtener una lista de los procesadores de características disponibles.