Ya no actualizamos el servicio Amazon Machine Learning ni aceptamos nuevos usuarios para él. Esta documentación está disponible para los usuarios actuales, pero ya no la actualizamos. Para obtener más información, consulte Qué es Amazon Machine Learning.
Compresión del formato de datos de Amazon ML
Los datos de entrada son aquellos que se utilizan para crear una fuente de datos. Debe guardar los datos de entrada en el formato de valores separados por comas (.csv). Cada fila en el archivo .csv es un solo registro de datos u observación. Cada columna en el archivo .csv contiene un atributo de la observación. Por ejemplo, el siguiente gráfico muestra el contenido de un archivo .csv que tiene cuatro observaciones, cada una en su propia fila. Cada observación contiene ocho atributos, separados por comas. Los atributos representan la siguiente información sobre cada uno de los elementos representados por una observación: customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign.
Atributos
Amazon ML requiere nombres para cada atributo. Puede especificar los nombres de los atributos del siguiente modo:
-
Incluyendo los nombres de los atributos en la primera línea (también conocida como línea de encabezado) del archivo .csv que utilice como datos de entrada
-
Incluyendo los nombres de los atributos en un archivo de esquema por separado que se encuentra en el mismo bucket de S3 que los datos de entrada
Para obtener más información acerca de la utilización de archivos de esquema, consulte Creación de un esquema de datos.
A continuación, se muestra un ejemplo de archivo .csv que incluye los nombres de los atributos en la línea de encabezado.
customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign 1,3,basic.4y,no,no,1,261,0 2,1,high.school,no,no,22,149,0 3,1,high.school,yes,no,65,226,1 4,2,basic.6y,no,no,1,151,0
Requisitos de formato de archivos de entrada
El archivo .csv que contiene los datos de entrada debe cumplir los siguientes requisitos:
-
Debe estar en texto sin formato y con un conjunto de caracteres como ASCII, Unicode o EBCDIC.
-
Consta de observaciones, una observación por línea.
-
Para cada observación, los valores de atributos deben estar separados por comas.
-
Si un valor de atributo contiene una coma (el delimitador), todo el valor del atributo debe estar entre comillas dobles.
-
Cada observación debe terminar con un carácter de fin de línea, que es un carácter especial o secuencia de caracteres que indica el final de una línea.
-
Los valores de atributo no puede incluir los caracteres de fin de línea, aunque el valor de atributo se encuentre entre comillas dobles.
-
Cada observación debe tener el mismo número de atributos y la misma secuencia de los atributos.
-
Cada observación no puede ser superior a 100 KB. Amazon ML rechaza cualquier observación con un tamaño superior a 100 KB durante el procesamiento. Si Amazon ML rechaza más de 10 000 observaciones, se rechaza todo el archivo .csv.
Uso de varios archivos como datos de entrada para Amazon ML
Puede proporcionar sus entradas a Amazon ML como un único archivo, o bien como una colección de archivos. Las colecciones deberán cumplir estas condiciones:
-
Todos los archivos deben tener el mismo esquema de datos.
-
Todos los archivos deben encontrarse en el mismo prefijo de Amazon Simple Storage Service (Amazon S3) y la ruta que proporcione para la colección debe acabar con el carácter de barra inclinada ('/').
Por ejemplo, si los archivos de datos se nombran input1.csv, input2.csv e input3.csv y el nombre del bucket de S3 es s3:// examplebucket, las rutas de sus archivos deberían ser del siguiente modo:
s3://examplebucket/path/to/data/input1.csv
s3://examplebucket/path/to/data/input2.csv
s3://examplebucket/path/to/data/input3.csv
Proporcionaría la siguiente ubicación de S3 como entrada para Amazon ML:
's3://examplebucket/path/to/data/'
Caracteres de fin de línea en formato CSV
Al crear su archivo .csv, cada observación terminará con un carácter especial de fin de línea. Este carácter no es visible, pero se incluirá automáticamente al final de cada comentario al pulsar la tecla Intro o Retorno. El carácter especial que representa el final de la línea varía en función del sistema operativo. Los sistemas Unix, como Linux u OS X, utilizan un carácter de salto de línea que se indica mediante "\n" (código ASCII 10 en decimal o 0x0a en hexadecimal). Microsoft Windows utiliza dos caracteres llamados retorno de carro y avance de línea que se indican con "\n" (códigos ASCII 13 y 10 en decimal o 0x0d y 0x0a en hexadecimal).
Si desea utilizar OS X y Microsoft Excel para crear su archivo.csv, realice el siguiente procedimiento. Asegúrese de elegir el formato correcto.
Para guardar un archivo .csv si utiliza OS X y Excel
-
Al guardar el archivo .csv, elija Formato y, a continuación, elija Valores separados por comas de Windows (.csv).
-
Seleccione Save.
importante
No guarde el archivo .csv usando los formatos Valores separados por comas (.csv) o Valores separados por comas de MS-DOS (.csv) porque Amazon ML no puede leeros.