Directrices de conjuntos de datos para Forecast - Amazon Forecast

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Directrices de conjuntos de datos para Forecast

Consulte las siguientes directrices si Amazon Forecast no puede importar el conjunto de datos o si el conjunto de datos no funciona como se esperaba.

Formato de la marca temporal

Para las frecuencias de recopilación anual (Y), mensual (M), semanal (W), y diaria (D), Forecast admite el formato de marca temporal yyyy-MM-dd (por ejemplo, 2019-08-21) y, de forma opcional, el formato HH:mm:ss (por ejemplo, 2019-08-21 15:00:00).

Para las frecuencias de hora (H) y minuto (M), Forecast admite solo el formato yyyy-MM-dd HH:mm:ss (por ejemplo, 2019-08-21 15:00:00).

Directriz: cambie el formato de marca temporal de la frecuencia de recopilación del conjunto de datos al formato admitido.

Archivo o bucket de Amazon S3

Al importar un conjunto de datos, puede especificar la ruta a un archivo CSV o Parquet en su bucket de Amazon Simple Storage Service (Amazon S3) que contiene los datos o el nombre del bucket de S3 que contiene los datos. Si especifica un archivo CSV o Parquet, Forecast importará solo ese archivo. Si especifica un bucket de S3, Forecast importa todos los archivos CSV o Parquet del bucket hasta 10 000 archivos. Si importa varios archivos especificando un nombre de bucket, todos los archivos CSV o Parquet deben ajustarse al esquema especificado.

Instrucciones: especifique un archivo específico o un bucket de S3 con la siguiente sintaxis:

s3://bucket-name/example-object.csv

s3://bucket-name/example-object.parquet

s3://bucket-name/prefix/

s3://bucket-name

Los archivos de Parquet pueden tener la extensión .parquet, .parq, .pqt o no tener ninguna extensión.

Actualizaciones completas del conjunto de datos

La primera importación de un conjunto de datos es siempre una importación completa, las importaciones posteriores pueden ser actualizaciones completas o incrementales. Debe usar la API de Forecast para especificar el modo de importación.

Con una actualización completa, todos los datos existentes se sustituyen por los datos recién importados. Como los trabajos de importación de conjuntos de datos completos no se agregan, la importación de conjuntos de datos más reciente es la que se utiliza para entrenar al predictor o generar una previsión.

Instrucciones: cree una actualización incremental del conjunto de datos para añadir los nuevos datos a los datos existentes. Si no, asegúrese de que la importación de conjunto de datos más reciente contenga todos los datos que desee utilizar para el modelado y no solo los datos nuevos que se recopilaron desde la importación anterior.

Actualizaciones incrementales de los conjuntos de datos

Los campos como la marca temporal, el formato de datos, la geolocalización, etc., se leen a partir del conjunto de datos actualmente activo. No es necesario incluir esta información en una importación incremental de conjuntos de datos. Si se incluyen, deben coincidir con los valores proporcionados originalmente.

Instrucciones: realice una importación completa del conjunto de datos para cambiar cualquiera de estos valores.

Orden de los atributos

El orden de los atributos especificado en la definición del esquema debe coincidir con el orden de las columnas del archivo CSV o Parquet que está importando. Por ejemplo, si definió timestamp como el primer atributo, timestamp deberá ser también la primera columna del archivo de entrada.

Instrucciones: verifique que las columnas del archivo de entrada están en el mismo orden que los atributos del esquema que ha creado.

Índice meteorológico

Para aplicar el índice meteorológico, debe incluir un atributo de geolocalización en su serie temporal de destino y en cualquier conjunto de datos de series temporales relacionadas. También debe especificar las zonas horarias para las marcas temporales de sus series temporales de destino.

Instrucciones: asegúrese de que sus conjuntos de datos incluyan un atributo de geolocalización y de que sus marcas temporales tengan una zona horaria asignada. Para obtener más información, consulta las condiciones y restricciones del índice meteorológico.

Encabezado del conjunto de datos

Los encabezados del conjunto de datos del CSV de entrada pueden causar errores de validación. Es recomendable omitir los encabezados para archivos CSV.

Instrucciones: elimine el encabezado del conjunto de datos e intente realizar de nuevo la importación.

Se requiere un encabezado de conjunto de datos para los archivos de Parquet.

Estado del conjunto de datos

Para poder importar datos de entrenamiento con la operación CreateDatasetImportJob, el Status del conjunto de datos debe ser ACTIVE.

Directriz: utilice la operación DescribeDataset para obtener el estado del conjunto de datos. Si no se pudo crear o actualizar el conjunto de datos, compruebe el formato del archivo del conjunto de datos e intente crearlo de nuevo.

Formato de registro predeterminado

El formato de archivo predeterminado es CSV.

Formato y delimitador de archivos

Forecast solo admite el formato de archivo de valores separados por comas (CSV) y Parquet. Los valores no se pueden separar mediante tabulaciones, espacios, dos puntos ni ningún otro carácter.

Instrucciones: convierta el conjunto de datos al formato CSV (utilizando solo comas como delimitador) o Parquet e intente volver a importar el archivo.

Nombre de archivo

Los nombres de archivo deben contener al menos un caracter alfabético. Los archivos con nombres que solo son numéricos no se pueden importar.

Instrucciones: cambie el nombre del archivo de datos de entrada para incluir al menos un carácter alfabético e intente volver a importar el archivo.

Datos de Parquet particionados

Forecast no lee archivos Parquet particionados.

Análisis condicional: requisitos del conjunto de datos

Los análisis condicionales requieren conjuntos de datos CSV. El TimeSeriesSelector funcionamiento de la CreateWhatIfAnalysis acción y el TimeSeriesReplacementDataSource funcionamiento de CreateWhatIfForecast no aceptar archivos Parquet.