Automatizzazione di cluster ricorrenti con AWS Data Pipeline - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Automatizzazione di cluster ricorrenti con AWS Data Pipeline

AWS Data Pipeline è un servizio che automatizza lo spostamento e la trasformazione dei dati. Puoi utilizzare questo metodo per programmare il trasferimento di dati di input a Amazon S3 e l'avvio di cluster per elaborare quei dati. Ad esempio, immaginiamo che disponi di un server Web che registra log di traffico. Se desideri eseguire un cluster settimanale per analizzare i dati sul traffico, puoi utilizzarlo AWS Data Pipeline per pianificare tali cluster. AWS Data Pipeline è un flusso di lavoro basato sui dati, in modo che un'attività (avvio del cluster) possa dipendere da un'altra attività (spostamento dei dati di input su Amazon S3). Dispone inoltre di una potente caratteristica di ripetizione tentativi.

Per ulteriori informazioni su AWS Data Pipeline, consulta la AWS Data Pipeline Developer Guide, in particolare i tutorial su Amazon EMR: