Guida per le esecuzioni che non rispondono

Motivi dell'errore di esecuzione

Se un'esecuzione non riesce, utilizza l'operazione GetRunAPI per recuperare il motivo dell'errore.

Esamina il motivo dell'errore per aiutarti a risolvere il motivo per cui l'esecuzione non è riuscita. La tabella seguente elenca ogni motivo di errore insieme a una descrizione dell'errore.

Motivo dell'errore	Descrizione dell'errore.
`ASSUME_ROLE_FAILED`	HealthOmics non ha il permesso di assumere il ruolo. Specificare il HealthOmics principale nella relazione di fiducia per il ruolo.
`ERRORE CANNOT_START_CONTAINER_`	Impossibile avviare l'attività di workflow:, id: container utilizzando image:`name`. `ID` `image name` Assicurati che l'immagine sia valida e riprova.
`CANNOT_START_CONTAINER_SIZE_ERROR`	Impossibile avviare l'operazione di workflow:, id: container utilizzando image:. `name` `ID` `image name` Assicurati che la dimensione dell'immagine sia inferiore a 45 GiB (95 GiB per un'istanza GPU) e riprova.
`ECR_PERMISSION_ERROR`	HealthOmics non dispone dell'autorizzazione per accedere all'URI dell'immagine. Verifica che l'archivio privato di Amazon ECR esista e che abbia concesso l'accesso al HealthOmics servizio principale.
`ESPORTAZIONE_FALLITA`	Esportazione non riuscita. Verifica che il bucket di output esista e che il ruolo di esecuzione disponga dell'autorizzazione di scrittura per il bucket.
`FILE_SYSTEM_OUT_OF_SPACE`	Il file system non dispone di spazio sufficiente. Aumenta le dimensioni del file system ed esegui di nuovo.
`ERRORE DI VERIFICA DELL'IMMAGINE`	Impossibile verificare l'immagine. `image name` Per correggere il problema, prova a estrarre l'immagine e inseriscila nuovamente nell'archivio ECR.
`IMPORTAZIONE_FALLITA`	L'importazione non è riuscita. Verifica che il file di input esista e che il ruolo di esecuzione possa accedere all'input.
`INACTIVE_OMICS_STORAGE_RESOURCE`	L'URI di archiviazione non è in stato ACTIVE. HealthOmics Attiva il set di lettura e riprova. Per ulteriori informazioni sull'attivazione dei set di lettura, consultaAttivazione dei set di lettura in HealthOmics.
`INPUT_URI_NOT_FOUND`	L'URI fornito non esiste:. `uri` Verifica che il percorso URI esista e conferma che il ruolo possa accedere all'oggetto.
`INSTANCE_RESERVATION_FAILED`	La capacità dell'istanza non è sufficiente per completare l'esecuzione del flusso di lavoro. Attendi e riprova a eseguire il flusso di lavoro.
`INVALID_ECR_IMAGE_URI`	La struttura URI dell'immagine Amazon ECR non è valida. Fornisci un URI valido e riprova.
`VALORE_TASK_RESOURCE_VALUE NON VALIDO`	La GPU, la CPU o la memoria richieste sono troppo elevate per la capacità di elaborazione disponibile o sono inferiori al valore minimo di 1 per l'attività. `ID`
`INPUT URI NON VALIDO`	La struttura URI non è valida. `uri` Controlla la struttura dell'URI e riprova.
`MODIFIED_INPUT_RESOURCE`	L'URI `uri` fornito è stato modificato dopo l'inizio dell'esecuzione. Riprova l'esecuzione.
`OUT_OF_MEMORY_ERROR`	L'attività del flusso di lavoro ha esaurito la memoria. `ID` Aumenta il valore di memoria nella definizione del flusso di lavoro e riprova a eseguire.
`RUN_TASK_FAILED`	L'esecuzione non è riuscita perché l'operazione non è riuscita. Per eseguire il debug dell'errore dell'attività, utilizza l'operazione GetRunTaskAPI e il flusso Amazon CloudWatch Logs.
`RUN_TIMED_OUT`	Timeout di esecuzione dopo pochi minuti. `number`
`ERRO_SERVIZIO`	Si è verificato un errore temporaneo nel servizio. Prova a eseguire nuovamente il flusso di lavoro.
`TASK_TIMED_OUT`	Attività scaduta dopo pochi secondi. `id` `number`
`UNSUPPORTED_INPUT_SIZE`	La dimensione totale dell'input è troppo alta. Riduci la dimensione di input e riprova.
`WORKFLOW_RUN_FAILED`	Esecuzione del workflow non riuscita. Esamina il flusso di log del motore CloudWatch Logs: `ID` per eseguire il debug dell'errore.
`WORKFLOW_VER_VALIDATION_FAILED`	HealthOmics non supporta la versione di Nextflow richiesta: --. `version` L'ultima versione supportata è. `version` Modifica la tua versione di Nextflow con una versione supportata e riprova.
`UNSUPPORTED_GPU_INSTANCE_TYPE`	Il tipo di istanza richiesto non è supportato in. `Region` Riprova l'esecuzione con un tipo di istanza GPU supportato in questa regione. I tipi di istanza disponibili sono. `GPU instance types`

Guida per le esecuzioni che non rispondono

Durante lo sviluppo di nuovi flussi di lavoro, esecuzioni o attività specifiche potrebbero «bloccarsi» o «bloccarsi» se ci sono problemi con il codice e le attività non riescono a uscire correttamente dai processi. Questo può essere difficile da risolvere e da catturare, poiché è normale che le attività vengano eseguite per periodi prolungati. Per prevenire e identificare esecuzioni che non rispondono, segui le migliori pratiche suggerite nelle sezioni seguenti.

Le migliori pratiche per prevenire le esecuzioni che non rispondono

Assicurati di chiudere tutti i file aperti nel codice dell'attività. L'apertura di troppi file può occasionalmente causare problemi di threading all'interno dei motori di flusso di lavoro.
I processi in background creati da un'attività del flusso di lavoro devono terminare quando l'operazione viene chiusa. Tuttavia, se un processo in background non viene chiuso correttamente, è necessario chiuderlo in modo esplicito nel codice dell'attività.
Assicuratevi che i processi non si ripetano senza uscire. Ciò può causare una mancata risposta dell'esecuzione e la risoluzione richiede una modifica al codice di definizione del flusso di lavoro.
Fornisci un'allocazione di memoria e CPU appropriata per le tue attività. Analizza CloudWatch i log o utilizza le esecuzioni Esegui Analyzer completate con successo del flusso di lavoro per verificare di disporre di un'allocazione di elaborazione ottimale. Utilizzate il headroom parametro Run Analyzer per includere un margine di crescita aggiuntivo, assicurandovi che i processi dispongano di risorse sufficienti per il completamento. Includi almeno il 5% di margine di crescita nella memoria e nella CPU allocate, per tenere conto dei processi del sistema operativo in background.
- Inoltre, aumenta la dimensione della larghezza di banda dell'istanza se l'istanza richiede un throughput più elevato. EC2 Le istanze Amazon con meno di 16 v CPUs (dimensioni 4xl e inferiori) possono subire un aumento del throughput. Per ulteriori informazioni sulla velocità effettiva delle EC2 istanze Amazon, consulta Larghezza di banda EC2 disponibile delle istanze Amazon.
Assicurati di utilizzare la dimensione corretta del file system per le tue esecuzioni. Per le esecuzioni che non rispondono che utilizzano lo storage a esecuzione statica, è consigliabile aumentare l'allocazione dello storage di esecuzione statica per consentire una maggiore velocità di I/O e una maggiore capacità di archiviazione sul file system. Analizza il run manifest per vedere lo storage massimo del file system, utilizza Run Analyzer per determinare se è necessario aumentare l'allocazione del file system.

Le migliori pratiche per rilevare le esecuzioni che non rispondono

Quando sviluppi nuovi flussi di lavoro, usa un gruppo di esecuzione con il limite massimo di tempo di esecuzione impostato su catch runaway code. Ad esempio, se il completamento di una corsa richiede 1 ora, inseriscila in un gruppo di corsa che scada dopo 2 o 3 ore (o un periodo di tempo diverso in base al caso d'uso) per catturare lavori in fase di esecuzione. Inoltre, applica un buffer per tenere conto della varianza nei tempi di elaborazione.
Imposta una serie di gruppi di esecuzione con limiti di runtime massimi diversi. Ad esempio, è possibile assegnare esecuzioni brevi a un gruppo di esecuzione che termina le esecuzioni dopo alcune ore e a un gruppo di esecuzioni lunghe che termina le esecuzioni dopo alcuni giorni, in base alla durata prevista del flusso di lavoro.
HealthOmics ha un limite di durata massima del servizio predefinito di 604.800 secondi, o 7 giorni, che è regolabile tramite una richiesta nello strumento per le quote. Richiedi un aumento del limite di servizio di questa quota solo se hai esecuzioni della durata di circa una settimana. Se disponi di una combinazione di tirature brevi e lunghe e non utilizzi i gruppi di corsa, valuta la possibilità di inserire le esecuzioni di lunga durata in un account separato con un limite di durata massima del servizio più elevato.
Esamina CloudWatch i registri per individuare eventuali attività che ritieni non rispondano. Se un'attività normalmente genera istruzioni di registro regolari e non lo fa da un periodo prolungato, è probabile che l'attività sia bloccata o bloccata.

Cosa fare se si verifica un'esecuzione che non risponde

Annulla la corsa per evitare di incorrere in costi aggiuntivi.
Controlla i registri delle attività per verificare se alcuni processi non sono riusciti a terminare correttamente.
Ispezionate i registri del motore per identificare eventuali comportamenti anomali del motore.
Confrontate i registri delle attività e del motore dell'esecuzione che non risponde con quelli delle esecuzioni identiche completate con successo. Questo può aiutare a identificare eventuali differenze che potrebbero aver causato il comportamento di mancata risposta.
Se non riesci a determinare la causa principale, richiedi assistenza e includi quanto segue:
- ARN dell'esecuzione bloccata e ARN di un'esecuzione identica completata con successo.
- Registri del motore (disponibili dopo che la corsa è stata annullata o fallita)
- Registri delle attività per l'attività che non risponde. Per la risoluzione dei problemi non sono necessari i registri delle attività per tutte le attività del flusso di lavoro.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esegui gli output

Ciclo di vita del processo