Automatizza i cluster Amazon EMR ricorrenti con AWS Data Pipeline

AWS Data Pipeline è un servizio che automatizza lo spostamento e la trasformazione dei dati. Puoi utilizzare questo metodo per programmare il trasferimento di dati di input a Amazon S3 e l'avvio di cluster per elaborare quei dati. Ad esempio, immaginiamo che disponi di un server Web che registra log di traffico. Se desideri eseguire un cluster settimanale per analizzare i dati sul traffico, puoi utilizzarlo AWS Data Pipeline per pianificare tali cluster. AWS Data Pipeline è un flusso di lavoro basato sui dati, in modo che un'attività (avvio del cluster) possa dipendere da un'altra attività (spostamento dei dati di input su Amazon S3). Dispone inoltre di una potente caratteristica di ripetizione tentativi.

Per ulteriori informazioni su AWS Data Pipeline, consulta la AWS Data Pipeline Developer Guide, in particolare i tutorial su Amazon EMR:

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Clonare un cluster

Tutorial Amazon EMR