HealthOmics ejecutar entradas - AWS HealthOmics

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

HealthOmics ejecutar entradas

Si la definición del flujo de trabajo especifica archivos de entrada para el flujo de trabajo o las tareas del flujo de trabajo, HealthOmics organiza los archivos en un volumen provisional dedicado a la ejecución del flujo de trabajo. Estos archivos de entrada son de solo lectura, lo que impide que las tareas modifiquen las posibles entradas para convertirlas en otras tareas del flujo de trabajo. En el caso de las importaciones de directorios, los directorios también son de solo lectura.

Muchas aplicaciones de genómica asumen que los archivos de índice están ubicados en el mismo lugar que los archivos de secuencia (por ejemplo, el bai archivo complementario de un archivo). bam Para incluir los archivos de índice, especifíquelos como entradas de tareas en la definición del flujo de trabajo.

Administrar el tamaño de los parámetros de ejecución

Al iniciar una ejecución, se especifican las entradas de la ejecución en el objeto o archivo JSON de los parámetros de la ejecución. Puede especificar hasta 50 KB de parámetros de ejecución para el flujo de trabajo. Puede utilizar las siguientes técnicas para mantenerse dentro de esta restricción de tamaño:

  • Utilice importaciones de directorios

    Para especificar una gran cantidad de archivos de entrada, especifique un parámetro como la ubicación de Amazon S3 que contiene todos los archivos, en lugar de especificar un parámetro para cada ubicación de archivo. Para obtener más información, consulte el tema siguiente (Formatos de parámetros de entrada de Amazon S3).

  • Utilice una hoja de muestra

    Una hoja de muestra es un archivo CSV o TSV con una columna para la dirección fastq.gz (o dos para la lectura por pares) y columnas adicionales para los metadatos, como los nombres de los ejemplos. La hoja de muestra se especifica como un parámetro de entrada de ejecución en lugar de un parámetro para cada archivo de entrada.

    El flujo de trabajo define la forma en que la hoja de muestra se asigna a las estructuras de datos del flujo de trabajo. Si bien puede escribir código para hojas de muestra en WDL y CWL, son más comunes en ellas. NextFlow Para ver un ejemplo, consulta la hoja de muestra en el sitio de GitHub nf-core.

Formatos de parámetros de entrada de Amazon S3

Para un parámetro de entrada que acepta una ubicación de Amazon S3, el parámetro puede especificar la ubicación de un archivo o de todo un directorio de archivos. El uso de un directorio tiene las siguientes ventajas:

  • Conveniencia: se especifica el nombre del directorio como parámetro. No incluyes el nombre de cada archivo.

  • Compacidad: el tamaño máximo del archivo del parámetro de entrada es de 50 KB. Si proporciona una lista larga de nombres de archivos de entrada, puede superar este máximo.

Amazon S3 es un sistema de almacenamiento de objetos plano, por lo que no admite directorios. Para agrupar los archivos en un «directorio», se asigna a cada archivo el mismo prefijo de clave de objeto. Para obtener más información sobre los prefijos de clave de objeto de Amazon S3, consulte Organizar objetos mediante prefijos.

HealthOmics interpreta el valor del parámetro de entrada de la siguiente manera:

  • Si la ubicación de Amazon S3 no termina con una barra diagonal ni utiliza el patrón global, se HealthOmics espera que el valor del parámetro sea la clave de un objeto de Amazon S3.

    Por ejemplo, usted especifica introducir s3://myfiles/runs/inputs/a/file1.fastq file1.fastq

  • Si la ubicación de Amazon S3 termina con una barra diagonal, HealthOmics interpreta el valor del parámetro como un prefijo de Amazon S3. Carga todos los objetos de Amazon S3 con ese prefijo.

    Por ejemplo, puede especificar que se s3://myfiles/runs/inputs/a/ carguen todos los objetos cuyas claves comiencen con este prefijo.

  • En el caso de Nextflow, HealthOmics admite el patrón global de Amazon S3 URIs en los parámetros de entrada.

    Por ejemplo, puede especificar “s3://myfiles/runs/inputs/a/*.gz” que se ingresen todos los archivos.gz cuyas claves comiencen con este prefijo.

Manejo específico de la barra doble en las entradas de Amazon S3

HealthOmics conserva el comportamiento del motor nativo de cada motor de flujo de trabajo al gestionar barras dobles en Amazon S3 URIs, de modo que no necesite realizar ningún cambio en sus flujos de trabajo cuando los migre a. HealthOmics En las siguientes secciones se describe cómo gestiona cada motor los distintos escenarios.

WDL

Si el parámetro de entrada incluye una barra doble en el centro o al final del URI, el motor WDL conserva la barra doble.

Parámetro de entrada Ubicación esperada
s3://myfiles/runs/inputs//file1.fastq s3://1.fastq myfiles/runs/inputs//file
s3:////myfiles/runs/inputs s3://myfiles/runs/inputs//

Siguiente flujo

Si el parámetro de entrada incluye una barra doble en el centro de la URI, el motor de Nextflow conserva la barra doble. En el caso de una barra doble al final de la URI, el motor de Nextflow la resuelve en una sola barra.

Parámetro de entrada Ubicación esperada
s3://myfiles/runs/inputs//file1.fastq s3://1.fastq myfiles/runs/inputs//file
s3://myfiles//runs/inputs//*.gz s3://myfiles//runs/inputs//*.gz
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs/

BACALAO

Si el parámetro de entrada incluye una barra doble en el centro o al final del URI, el motor CWL conserva la barra doble.

Parámetro de entrada Ubicación esperada
s3://myfiles// runs/inputs//file 1.fastq s3://myfiles// 1.fastq runs/inputs//file
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs//

Estados del archivo de entrada de Amazon S3

HealthOmics puede recuperar los objetos de Amazon S3 que S3 entrega en tiempo real. En el caso de los objetos que se encuentran en los siguientes estados de almacenamiento archivado, restore los objetos a los que deben estar disponibles: HealthOmics

  • Clases de almacenamiento flexibles de recuperación o archivo profundo en Amazon S3 Glacier.

  • Niveles de acceso archivado o acceso a archivos profundos en niveles inteligentes.

Para obtener información sobre la restauración de objetos, consulte Restauración de un objeto archivado en la Guía del usuario de Amazon S3.