Motivi dell'errore di esecuzione - AWS HealthOmics

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Motivi dell'errore di esecuzione

Se un'esecuzione non riesce, utilizza l'operazione GetRunAPI per recuperare il motivo dell'errore.

Esamina il motivo dell'errore per aiutarti a risolvere il motivo per cui l'esecuzione non è riuscita. La tabella seguente elenca ogni motivo di errore insieme a una descrizione dell'errore.

Failure reason (Motivo errore) Descrizione dell'errore.

ASSUME_ROLE_FAILED

HealthOmics non ha il permesso di assumere il ruolo. Specificare il HealthOmics principale nella relazione di fiducia per il ruolo.

ERRORE CANNOT_START_CONTAINER_

Impossibile avviare l'attività di workflow:, id: container utilizzando image:name. ID image name Assicurati che l'immagine sia valida e riprova.

CANNOT_START_CONTAINER_SIZE_ERROR

Impossibile avviare l'operazione di workflow:, id: container utilizzando image:. name ID image name Assicurati che la dimensione dell'immagine sia inferiore a 25 GB e riprova.

ECR_PERMISSION_ERROR

HealthOmics non dispone dell'autorizzazione per accedere all'URI dell'immagine.

Verifica che l'archivio privato di Amazon ECR esista e che abbia concesso l'accesso al HealthOmics servizio principale.

ESPORTAZIONE_FALLITA

Esportazione non riuscita. Verifica che il bucket di output esista e che il ruolo di esecuzione disponga dell'autorizzazione di scrittura per il bucket.

FILE_SYSTEM_OUT_OF_SPACE

Il file system non dispone di spazio sufficiente. Aumenta le dimensioni del file system ed esegui di nuovo.

ERRORE DI VERIFICA DELL'IMMAGINE

Impossibile verificare l'immagine. image name Per correggere il problema, prova a estrarre l'immagine e inseriscila nuovamente nell'archivio ECR.

IMPORTAZIONE_FALLITA

L'importazione non è riuscita. Verifica che il file di input esista e che il ruolo di esecuzione possa accedere all'input.

INACTIVE_OMICS_STORAGE_RESOURCE

L'URI di archiviazione non è nello stato ATTIVO. HealthOmics Attiva il set di lettura e riprova. Per ulteriori informazioni sull'attivazione dei set di lettura, consultaAttivazione dei set di lettura in HealthOmics.

INPUT_URI_NOT_FOUND L'URI fornito non esiste:. uri Verifica che il percorso URI esista e conferma che il ruolo possa accedere all'oggetto.

INSTANCE_RESERVATION_FAILED

La capacità dell'istanza non è sufficiente per completare l'esecuzione del flusso di lavoro. Attendi e riprova a eseguire il flusso di lavoro.

INVALID_ECR_IMAGE_URI

La struttura URI dell'immagine Amazon ECR non è valida. Fornisci un URI valido e riprova.

VALORE_TASK_RESOURCE_VALUE NON VALIDO

La GPU, la CPU o la memoria richieste sono troppo elevate per la capacità di elaborazione disponibile o sono inferiori al valore minimo di 1 per l'attività. ID

INPUT URI NON VALIDO

La struttura URI non è valida. uri Controlla la struttura dell'URI e riprova.
MODIFIED_INPUT_RESOURCE

L'URI uri fornito è stato modificato dopo l'inizio dell'esecuzione. Riprova l'esecuzione.

OUT_OF_MEMORY_ERROR

L'attività del workflow ha esaurito la memoria. ID Aumenta il valore di memoria nella definizione del flusso di lavoro e riprova a eseguire.

RUN_TASK_FAILED

L'esecuzione non è riuscita perché l'operazione non è riuscita. Per eseguire il debug dell'errore dell'attività, utilizza l'operazione GetRunTaskAPI e il flusso Amazon CloudWatch Logs.

RUN_TIMED_OUT

Timeout di esecuzione dopo pochi minuti. number

ERRO_SERVIZIO Si è verificato un errore temporaneo nel servizio. Prova a eseguire nuovamente il flusso di lavoro.

UNSUPPORTED_INPUT_SIZE

La dimensione totale dell'input è troppo alta. Riduci la dimensione di input e riprova.

WORKFLOW_RUN_FAILED

Esecuzione del workflow non riuscita. Esamina il flusso di log del motore CloudWatch Logs: ID per eseguire il debug dell'errore.

WORKFLOW_VER_VALIDATION_FAILED

HealthOmics non supporta la versione di Nextflow richiesta: --. version L'ultima versione supportata è. version Modifica la tua versione di Nextflow con una versione supportata e riprova.

UNSUPPORTED_GPU_INSTANCE_TYPE

Il tipo di istanza richiesto non è supportato in. Region Riprova l'esecuzione con un tipo di istanza GPU supportato in questa regione. I tipi di istanza disponibili sono. GPU instance types

Guida per le esecuzioni che non rispondono

Durante lo sviluppo di nuovi flussi di lavoro, esecuzioni o attività specifiche potrebbero «bloccarsi» o «bloccarsi» se ci sono problemi con il codice e le attività non riescono a uscire correttamente dai processi. Questo può essere difficile da risolvere e da catturare, poiché è normale che le attività vengano eseguite per periodi prolungati. Per prevenire e identificare esecuzioni che non rispondono, segui le migliori pratiche suggerite nelle sezioni seguenti.

Le migliori pratiche per prevenire le esecuzioni che non rispondono

  • Assicurati di chiudere tutti i file aperti nel codice dell'attività. L'apertura di troppi file può occasionalmente causare problemi di threading all'interno dei motori di flusso di lavoro.

  • I processi in background creati da un'attività del flusso di lavoro devono terminare quando l'operazione viene chiusa. Tuttavia, se un processo in background non viene chiuso correttamente, è necessario chiuderlo in modo esplicito nel codice dell'attività.

  • Assicuratevi che i processi non si ripetano senza uscire. Ciò può causare una mancata risposta dell'esecuzione e la risoluzione richiede una modifica al codice di definizione del flusso di lavoro.

  • Fornisci un'allocazione di memoria e CPU appropriata per le tue attività. Analizza CloudWatch i log o utilizza le esecuzioni Esegui Analyzer completate con successo del flusso di lavoro per verificare di disporre di un'allocazione di elaborazione ottimale. Utilizzate il headroom parametro Run Analyzer per includere un margine di crescita aggiuntivo, assicurandovi che i processi dispongano di risorse sufficienti per il completamento. Includi almeno il 5% di margine di crescita nella memoria e nella CPU allocate, per tenere conto dei processi del sistema operativo in background.

    • Inoltre, aumenta la dimensione della larghezza di banda dell'istanza se l'istanza richiede un throughput più elevato. EC2 Le istanze Amazon con meno di 16 v CPUs (dimensioni 4xl e inferiori) possono subire un aumento del throughput. Per ulteriori informazioni sulla velocità effettiva delle EC2 istanze Amazon, consulta Larghezza di banda EC2 disponibile delle istanze Amazon.

  • Assicurati di utilizzare la dimensione corretta del file system per le tue esecuzioni. Per le esecuzioni che non rispondono che utilizzano lo storage a esecuzione statica, è consigliabile aumentare l'allocazione dello storage di esecuzione statica per consentire una maggiore velocità di I/O e una maggiore capacità di archiviazione sul file system. Analizza il run manifest per vedere lo storage massimo del file system, utilizza Run Analyzer per determinare se è necessario aumentare l'allocazione del file system.

Le migliori pratiche per rilevare le esecuzioni che non rispondono

  • Quando sviluppi nuovi flussi di lavoro, usa un gruppo di esecuzione con il limite massimo di tempo di esecuzione impostato su catch runaway code. Ad esempio, se il completamento di una corsa richiede 1 ora, inseriscila in un gruppo di corsa che scada dopo 2 o 3 ore (o un periodo di tempo diverso in base al caso d'uso) per catturare lavori in fase di esecuzione. Inoltre, applica un buffer per tenere conto della varianza nei tempi di elaborazione.

  • Imposta una serie di gruppi di esecuzione con limiti di runtime massimi diversi. Ad esempio, è possibile assegnare esecuzioni brevi a un gruppo di esecuzione che termina le esecuzioni dopo alcune ore e a un gruppo di esecuzioni lunghe che termina le esecuzioni dopo alcuni giorni, in base alla durata prevista del flusso di lavoro.

  • HealthOmics ha un limite di durata massima del servizio predefinito di 604.800 secondi, o 7 giorni, che è regolabile tramite una richiesta nello strumento per le quote. Richiedi un aumento del limite di servizio di questa quota solo se hai esecuzioni della durata di circa una settimana. Se disponi di una combinazione di tirature brevi e lunghe e non utilizzi i gruppi di corsa, valuta la possibilità di inserire le esecuzioni di lunga durata in un account separato con un limite di durata massima del servizio più elevato.

  • Esamina CloudWatch i registri per individuare eventuali attività che ritieni non rispondano. Se un'attività normalmente genera istruzioni di registro regolari e non lo fa da un periodo prolungato, è probabile che l'attività sia bloccata o bloccata.

Cosa fare se si verifica un'esecuzione che non risponde

  • Annulla la corsa per evitare costi aggiuntivi.

  • Controlla i registri delle attività per verificare se alcuni processi non sono riusciti a terminare correttamente.

  • Ispezionate i registri del motore per identificare eventuali comportamenti anomali del motore.

  • Confrontate i registri delle attività e del motore dell'esecuzione che non risponde con quelli delle esecuzioni identiche completate con successo. Questo può aiutare a identificare eventuali differenze che potrebbero aver causato il comportamento di mancata risposta.

  • Se non riesci a determinare la causa principale, richiedi assistenza e includi quanto segue:

    • ARN dell'esecuzione bloccata e ARN di un'esecuzione identica completata correttamente.

    • Registri del motore (disponibili dopo che la corsa è stata annullata o fallita)

    • Registri delle attività per l'attività che non risponde. Per la risoluzione dei problemi non sono necessari i registri delle attività per tutte le attività del flusso di lavoro.