Esecuzione di lavori su risorse esistenti utilizzando Task Runner - AWS Data Pipeline

AWS Data Pipeline non è più disponibile per i nuovi clienti. Clienti esistenti di AWS Data Pipeline possono continuare a utilizzare il servizio normalmente. Ulteriori informazioni

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di lavori su risorse esistenti utilizzando Task Runner

Puoi installare Task Runner su risorse di calcolo che gestisci, come un'EC2istanza Amazon o un server o una workstation fisica. Task Runner può essere installato ovunque, su qualsiasi hardware o sistema operativo compatibile, a condizione che possa comunicare con il servizio web. AWS Data Pipeline

Questo approccio può essere utile quando, ad esempio, si desidera utilizzare per AWS Data Pipeline elaborare i dati archiviati all'interno del firewall dell'organizzazione. Installando Task Runner su un server della rete locale, è possibile accedere al database locale in modo sicuro e quindi eseguire il polling AWS Data Pipeline per l'operazione successiva da eseguire. Quando AWS Data Pipeline termina l'elaborazione o elimina la pipeline, l'istanza di Task Runner rimane in esecuzione sulla risorsa di calcolo fino a quando non viene chiusa manualmente. I log di Task Runner persistono dopo il completamento dell'esecuzione della pipeline.

Per utilizzare Task Runner su una risorsa gestita dall'utente, è necessario innanzitutto scaricare Task Runner e quindi installarlo sulla risorsa di calcolo utilizzando le procedure descritte in questa sezione.

Nota

Puoi installare Task Runner solo su Linux o macOS. UNIX Task Runner non è supportato nel sistema operativo Windows.

Per utilizzare Task Runner 2.0, la versione minima di Java richiesta è 1.7.

Per connettere un Task Runner che avete installato alle attività della pipeline che deve elaborare, aggiungete un workerGroup campo all'oggetto e configurate Task Runner per verificare il valore del gruppo di lavoro. Puoi farlo passando la stringa del gruppo di lavoro come parametro (ad esempio,--workerGroup=wg-12345) quando esegui il file Task Runner. JAR

AWS Data Pipeline diagram showing monthly task flow for archiving processed invoices using Task Runner.
{ "id" : "CreateDirectory", "type" : "ShellCommandActivity", "workerGroup" : "wg-12345", "command" : "mkdir new-directory" }

Installazione di Task Runner

Questa sezione spiega come installare e configurare Task Runner e i relativi prerequisiti. L'installazione è un semplice processo manuale.

Per installare Task Runner
  1. Task Runner richiede le versioni Java 1.6 o 1.8. Per determinare se Java è installato e la versione in esecuzione, utilizzare il comando seguente:

    java -version

    Se sul computer non è installato Java 1.6 o 1.8, scaricate una di queste versioni da http://www.oracle.com/technetwork/java/index.html. Scaricare e installare Java, quindi procedere con il passaggio successivo.

  2. Scaricalo TaskRunner-1.0.jar da https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jar e poi copialo in una cartella sulla risorsa di calcolo di destinazione. Per EMR i cluster Amazon che eseguono EmrActivity attività, installa Task Runner sul nodo master del cluster.

  3. Quando utilizzano Task Runner per connettersi al servizio AWS Data Pipeline Web per elaborare i comandi, gli utenti devono accedere programmaticamente a un ruolo che dispone delle autorizzazioni per creare o gestire pipeline di dati. Per ulteriori informazioni, consulta Concessione dell'accesso programmatico.

  4. Task Runner si connette al servizio Web utilizzando. AWS Data Pipeline HTTPS Se stai utilizzando una AWS risorsa, assicurati che HTTPS sia abilitata nella tabella di routing e nella sottorete appropriate. ACL Se si sta usando un firewall o un proxy, assicurarsi che la porta 443 sia aperta.

Avvio di Task Runner

In una nuova finestra del prompt dei comandi impostata sulla directory in cui è installato Task Runner, avvia Task Runner con il comando seguente.

java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=myWorkerGroup --region=MyRegion --logUri=s3://mybucket/foldername

L'opzione --config punta al file delle credenziali.

L'opzione --workerGroup specifica il nome del gruppo di lavoratori, che deve essere lo stesso valore specificato nella pipeline per le attività da elaborare.

L'opzione --region specifica la regione del servizio da cui prendere le operazioni da eseguire.

L'--logUriopzione viene utilizzata per inviare i log compressi in una posizione in Amazon S3.

Quando Task Runner è attivo, stampa il percorso in cui vengono scritti i file di registro nella finestra del terminale. Di seguito è riportato un esempio.

Logging to /Computer_Name/.../output/logs

Task Runner deve essere eseguito non collegato alla shell di login. Se si sta usando un'applicazione terminale per connettersi al computer, potrebbe essere necessario utilizzare una utility come nohup o schermo per evitare di uscire dall'applicazione Task Runner al momento della disconnessione. Per ulteriori informazioni sulle opzioni delle righe di comando, consulta Opzioni di configurazione di Task Runner.

Verifica della registrazione di Task Runner

Il modo più semplice per verificare che Task Runner funzioni è verificare se sta scrivendo file di registro. Task Runner scrive i file di registro ogni ora nella directoryoutput/logs, all'interno della directory in cui è installato Task Runner. Il nome del file èTask Runner.log.YYYY-MM-DD-HH, dove HH va da 00 a 23, in. UDT Per risparmiare spazio di archiviazione, tutti i file di registro più vecchi di otto ore vengono compressi con. GZip