Paso 1: prepare los datos - Amazon Machine Learning

Ya no actualizamos el servicio Amazon Machine Learning ni aceptamos nuevos usuarios para él. Esta documentación está disponible para los usuarios actuales, pero ya no la actualizamos. Para obtener más información, consulte Qué es Amazon Machine Learning.

Paso 1: prepare los datos

En el aprendizaje automático, se suelen obtener los datos y asegurarse de que tienen el formato correcto antes de comenzar el proceso de entrenamiento. A efectos de este tutorial, hemos obtenido un conjunto de datos de muestra de UCI Machine Learning Repository, les hemos dado formato para cumplir con las directrices de Amazon ML y los hemos puesto a disposición para que los descargue. Descargue el conjunto de datos desde nuestra ubicación de almacenamiento de Amazon Simple Storage Service (Amazon S3) y cárguelo a su propio bucket de S3 siguiendo los procedimientos de este tema.

Para los requisitos de formato de Amazon ML, consulte Compresión del formato de datos de Amazon ML.

Descarga de los conjuntos de datos
  1. Descargue el archivo que contiene los datos históricos de los clientes que han adquirido productos similares a su depósito de banco de términos haciendo clic en banking.zip. Descomprima la carpeta y guarde el archivo banking.csv en su equipo.

  2. Descargue el archivo que utilizará para predecir si los clientes potenciales responderán a su oferta haciendo clic en banking-batch.zip. Descomprima la carpeta y guarde el archivo banking-batch.csv en su equipo.

  3. Abrir banking.csv. Verá filas y columnas de datos. La fila de encabezado contiene los nombres de atributo para cada columna. Un atributo es una propiedad con un nombre único que describe una característica particular de cada cliente; por ejemplo, "nr_employed" indica la situación profesional del cliente. Cada fila representa la colección de observaciones acerca de un único cliente.

    Desea que su modelo de ML responda a la pregunta "¿Este cliente va a suscribirse a mi nuevo producto?". En el conjunto de datos banking.csv, la respuesta a esta pregunta es el atributo y, que contiene los valores 1 (para "sí") o 0 (para "no"). El atributo que desea que Amazon ML aprenda a predecir se conoce como el atributo de destino.

    nota

    El atributo y es un atributo binario. Puede contener solo uno de los dos valores; en este caso, 0 o 1. En el conjunto de datos de UCI original el atributo y es Sí o No. Hemos editado el conjunto de datos original. Todos los valores del atributo y que significan "sí" son 1 y todos los valores que significan "no" son 0. Si utiliza sus datos propios, puede utilizar otros valores para un atributo binario. Para obtener más información acerca de los valores válidos, consulte Funcionamiento del campo AttributeType.

Los siguientes ejemplos muestran los datos antes y después de que se cambiaran los valores del atributo y a los atributos binarios 0 y 1.

El archivo banking-batch.csv no contiene el atributo y. Una vez que haya creado un modelo de ML, podrá utilizar el modelo para predecir y para cada registro en dicho archivo.

A continuación, cargue los archivos banking.csv y banking-batch.csv a Amazon S3.

Carga de los archivos a una ubicación de Amazon S3
  1. Inicie sesión en la AWS Management Console y abra la consola de Amazon S3 en https://console.aws.amazon.com/s3/.

  2. En la lista All Buckets (Todos los buckets), cree un bucket o elija la ubicación donde desee cargar los archivos.

  3. En la barra de navegación, elija Upload (Cargar).

  4. Seleccione Add Files (Añadir archivos).

  5. En el cuadro de diálogo, diríjase al escritorio, elija banking.csv y banking-batch.csv y, a continuación, seleccione Open (Abrir).

Ahora está preparado para crear su origen de datos de entrenamiento.