Actualización de un conjunto de datos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Actualización de un conjunto de datos

Tras importar su conjunto de datos inicial a Amazon SageMaker Canvas, es posible que tenga datos adicionales que desee añadir a su conjunto de datos. Por ejemplo, puede recibir datos de inventario al final de cada semana que desee agregar a su conjunto de datos. En lugar de importar los datos varias veces, puede actualizar el conjunto de datos existente y agregar o eliminar archivos del mismo.

nota

Solo puede actualizar los conjuntos de datos que haya importado mediante carga local o Amazon S3.

Puede actualizar su conjunto de datos de forma manual o automática. Con las actualizaciones automáticas, especifica una ubicación en la que Canvas busca archivos con la frecuencia que determine. Si importa archivos nuevos durante la actualización, el esquema de los archivos debe coincidir exactamente con el conjunto de datos existente.

Cada vez que actualiza su conjunto de datos, Canvas crea una nueva versión de su conjunto de datos. Solo puede usar la última versión de su conjunto de datos para crear un modelo o generar predicciones. Para obtener más información acerca de cómo ver el historial de versiones de su conjunto de datos, consulte Visualización de detalles de su conjunto de datos.

También puede usar las actualizaciones del conjunto de datos con predicciones por lotes automatizadas, lo que inicia un trabajo de predicción por lotes cada vez que actualiza el conjunto de datos. Para obtener más información, consulte Realización de predicciones por lotes.

En las secciones siguientes, se describe cómo realizar actualizaciones manuales y automáticas en el conjunto de datos.

Actualización manual de un conjunto de datos

Para realizar una actualización manual, haga lo siguiente:

  1. Abra la aplicación SageMaker Canvas.

  2. En el panel de navegación de la izquierda, elija Conjuntos de datos.

  3. En la lista de conjuntos de datos, elija el conjunto de datos que desee actualizar.

  4. Seleccione el menú desplegable Actualizar conjunto de datos y seleccione Actualización manual. Accederá al flujo de trabajo de importación de datos.

  5. En el menú desplegable Origen de datos, seleccione Carga local o Amazon S3.

  6. La página muestra una vista previa de los datos. Desde aquí, puede agregar o eliminar archivos del conjunto de datos. Si va a importar datos tabulares, el esquema de los nuevos archivos (nombres de columnas y tipos de datos) debe coincidir con el esquema de los archivos existentes. Además, los archivos nuevos no deben superar el tamaño máximo del conjunto de datos o del archivo. Para obtener más información sobre estos límites, consulte Importación de un conjunto de datos.

    nota

    Si agrega un archivo con el mismo nombre que un archivo existente en su conjunto de datos, el nuevo archivo sobrescribe la versión anterior del archivo.

  7. Cuando esté listo para guardar los cambios, elija Actualizar conjunto de datos.

Ahora ya debería tener una nueva versión de su conjunto de datos.

En la página Conjuntos de datos, puede elegir la pestaña Historial de versiones para ver todas las versiones de su conjunto de datos y el historial de las actualizaciones manuales y automáticas que ha realizado.

Configuración de las actualizaciones automáticas de un conjunto de datos

Una actualización automática se produce cuando establece una configuración para que Canvas actualice su conjunto de datos con una frecuencia determinada. Le recomendamos que utilice esta opción si recibe regularmente nuevos archivos de datos que desee agregar a su conjunto de datos.

Al establecer la configuración de actualización automática, especifica una ubicación de Amazon S3 en la que carga los archivos y la frecuencia con la que Canvas comprueba la ubicación e importa los archivos. Cada instancia en la que Canvas actualiza su conjunto de datos se denomina trabajo. Para cada trabajo, Canvas importa todos los archivos de la ubicación de Amazon S3. Si tiene archivos nuevos con los mismos nombres que los archivos existentes en su conjunto de datos, Canvas sobrescribe los archivos antiguos con los archivos nuevos.

Para las actualizaciones automáticas de los conjuntos de datos, Canvas no realiza la validación del esquema. Si el esquema de los archivos importados durante una actualización automática no coincide con el esquema de los archivos existentes o supera los límites de tamaño (consulte Importación de un conjunto de datos para ver una tabla con las limitaciones de tamaño de los archivos), se producen errores al ejecutar los trabajos.

nota

Solo puede configurar un máximo de 20 configuraciones automáticas en su aplicación de Canvas. Además, Canvas solo realiza actualizaciones automáticas mientras está conectado a la aplicación de Canvas. Si cierra sesión en su aplicación de Canvas, las actualizaciones automáticas se detienen hasta que vuelva a iniciar sesión.

Para configurar las actualizaciones automáticas de su conjunto de datos, haga lo siguiente:

  1. Abra la aplicación SageMaker Canvas.

  2. En el panel de navegación de la izquierda, elija Conjuntos de datos.

  3. En la lista de conjuntos de datos, elija el conjunto de datos que desee actualizar.

  4. Seleccione el menú desplegable Actualización de conjunto de datos y seleccione Actualización automática. Se abrirá la pestaña Actualizaciones automáticas del conjunto de datos.

  5. Active la opción Actualización automática habilitada.

  6. En Especificar origen de datos, introduzca la ruta de Amazon S3 a la carpeta en la que vaya a cargar archivos con regularidad.

  7. En Elegir una frecuencia, seleccione Por hora, Semanalmente o Diariamente.

  8. Para Especificar una hora de inicio, utilice el calendario y el selector de hora para seleccionar cuándo desea que comience el primer trabajo de actualización automática.

  9. Cuando esté listo para crear la configuración de actualización automática, elija Guardar.

Canvas comienza el primer trabajo de la cadencia de actualización automática a la hora de inicio especificada.

Para obtener más información sobre cómo ver su historial de trabajos de actualización automática o realizar cambios en la configuración de actualización automática a través de la página Automatizaciones de la aplicación de Canvas, consulte Administración de automatizaciones.

En las siguientes secciones se describe cómo ver, actualizar y eliminar la configuración de actualización automática a través de la página de Conjuntos de datos de la aplicación de Canvas.

Visualización de trabajos de actualización automática de conjuntos de datos

Para ver el historial de tareas de las actualizaciones automáticas del conjunto de datos, en la página de detalles del conjunto de datos, seleccione la pestaña Actualizaciones automáticas.

Cada actualización automática de un conjunto de datos aparece como un trabajo en la pestaña Actualizaciones automáticas de la sección Historial de trabajos. Para cada trabajo, puede ver lo siguiente:

  • Trabajo creado: la marca de tiempo en la que Canvas comenzó a actualizar el conjunto de datos.

  • Archivos: la cantidad de archivos en el conjunto de datos.

  • Celdas (columnas x filas): el número de columnas y filas del conjunto de datos.

  • Estado: el estado del conjunto de datos tras la actualización. Si el trabajo se ha completado correctamente, el estado será Listo. Si el trabajo ha fallado por algún motivo, el estado es Error y podrá pasar el ratón sobre el estado para obtener más información.

Edición de la configuración de actualización automática del conjunto de datos

Es posible que desee realizar cambios en la configuración de actualización automática de un conjunto de datos, como cambiar la frecuencia de las actualizaciones. También puede desactivar la configuración de actualización automática para pausar las actualizaciones del conjunto de datos.

Para realizar cambios en la configuración de actualización automática de un conjunto de datos, vaya a la pestaña Actualizaciones automáticas de su conjunto de datos y elija Editar para realizar cambios en la configuración.

Para pausar las actualizaciones del conjunto de datos, desactive la configuración automática. Para desactivar las actualizaciones automáticas, vaya a la pestaña Actualizaciones automáticas de su conjunto de datos y desactive la opción Habilitar actualizaciones automáticas. Puede volver a activar esta opción en cualquier momento para reanudar la programación de actualizaciones.

Eliminación de la configuración de actualización automática del conjunto de datos

Para aprender a eliminar su configuración, consulte Eliminación de una configuración automática.