As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Acessando conjuntos de HealthOmics leitura com o Amazon S3 URIs
Você pode usar caminhos de URI do Amazon S3 para acessar seus conjuntos de leitura do armazenamento de sequências ativas.
Com o caminho de URI do Amazon S3, você pode usar as operações do Amazon S3 para listar, compartilhar e baixar seus conjuntos de leitura. O acesso por meio do S3 APIs acelera a colaboração e a integração de ferramentas, já que muitas ferramentas do setor já foram criadas para serem lidas a partir do S3. Além disso, você pode compartilhar o acesso ao S3 APIs com outras contas e fornecer acesso de leitura entre regiões aos dados.
HealthOmics não oferece suporte ao acesso URI do Amazon S3 a conjuntos de leitura arquivados. Quando você ativa um conjunto de leitura, ele é restaurado sempre para o mesmo caminho de URI.
Com os dados carregados nas HealthOmics lojas, como o URI do Amazon S3 é baseado nos pontos de acesso do Amazon S3, você pode se integrar diretamente às ferramentas padrão do setor que leem o Amazon S3, como as URIs seguintes:
-
Aplicativos de análise visual, como o Integrative Genomics Viewer (IGV) ou o UCSC Genome Browser.
-
Fluxos de trabalho comuns com extensões do Amazon S3, como CWL, WDL e Nextflow.
-
Qualquer ferramenta que possa autenticar e ler a partir do ponto de acesso Amazon URIs S3 ou ler o Amazon S3 pré-assinado. URIs
-
Utilitários do Amazon S3, como Mountpoint ou. CloudFront
O Amazon S3 Mountpoint possibilita que você use um bucket do Amazon S3 como um sistema de arquivos local. Para saber mais sobre o Mountpoint e instalá-lo para uso, consulte Mountpoint para Amazon S3
CloudFront A Amazon é um serviço de rede de entrega de conteúdo (CDN) criado para alto desempenho, segurança e conveniência para desenvolvedores. Para saber mais sobre como usar a Amazon CloudFront, consulte a CloudFront documentação da Amazon. Para configurar um armazenamento CloudFront de sequências, entre em contato com a AWS HealthOmics equipe.
A conta raiz do proprietário dos dados está habilitada para as ações S3:GetObject, S3: e S3:List Bucket no prefixo de armazenamento de sequência. GetObjectTagging Para que um usuário na conta acesse os dados, você cria uma política do IAM e a anexa ao usuário ou à função. Para visualizar um exemplo de política, consulte Permissões para acesso a dados usando o Amazon S3 URIs.
Você pode usar as seguintes operações de API do Amazon S3 nos conjuntos de leitura ativos para listar e recuperar seus dados. Você pode acessar conjuntos de leitura arquivados por meio do Amazon URIs S3 depois que eles forem ativados.
-
GetObject— Recupera um objeto do Amazon S3.
-
HeadObject— A operação HEAD recupera metadados de um objeto sem retornar o objeto em si. Essa operação é útil se você quiser apenas os metadados de um objeto.
-
ListObjects e ListObject v2 — Retorna alguns ou todos (até 1.000) dos objetos em um bucket.
-
CopyObject— Cria uma cópia de um objeto que já está armazenado no Amazon S3. HealthOmicssuporta a cópia em um ponto de acesso do Amazon S3, mas não a gravação em um ponto de acesso.
HealthOmics os armazenamentos de sequências mantêm a identidade semântica dos arquivos por meio ETags de. Durante todo o ciclo de vida de um arquivo, o Amazon ETag S3, que é baseado na identidade bit a bit, pode mudar, HealthOmics ETag mas permanece o mesmo. Para saber mais, consulte HealthOmics ETags e proveniência dos dados.
Tópicos
Estrutura de URI do Amazon S3 em armazenamento HealthOmics
Todos os arquivos com o Amazon S3 URIs têm tags omics:subjectId
de omics:sampleId
recursos. Você pode usar essas tags para compartilhar o acesso usando políticas do IAM por meio de um padrão como"s3:ExistingObjectTag/omics:subjectId": "pattern desired"
.
A estrutura do arquivo é a seguinte:
.../
account_id
/sequenceStore/seq_store_id
/readSet/read_set_id
/files
.
Para arquivos importados para armazenamentos de sequências do Amazon S3, o armazenamento de sequências tenta manter o nome da fonte original. Quando os nomes entram em conflito, o sistema anexa as informações do conjunto de leitura para garantir que os nomes dos arquivos sejam exclusivos. Por exemplo, para conjuntos de leitura fastq, se os dois nomes de arquivo forem iguais, para tornar os nomes exclusivos, sourceX
é inserido antes de .fastq.gz ou .fq.gz. Para um upload direto, os nomes dos arquivos seguem os seguintes padrões:
-
Para FASTQ—
read_set_name
_ .fastq.gzsourcex
-
Para uBAM/BAM/CRAM —
read_set_name
.file extension
com extensões de.bam
ou.cram
. Um exemplo éNA193948.bam
.
Para conjuntos de leitura que são BAM ou CRAM, os arquivos de índice são gerados automaticamente durante o processo de ingestão. Para os arquivos de índice gerados, a extensão de índice adequada no final do nome do arquivo é aplicada. Tem o padrão <name of the Source the index is on>.<file index extension>.
As extensões do índice são .bai
ou.crai
.
Usando IGV hospedado ou local para acessar conjuntos de leitura
IGV é um navegador de genoma usado para analisar arquivos BAM e CRAM. Ele requer o arquivo e o índice porque exibe apenas uma parte do genoma por vez. O IGV pode ser baixado e usado localmente, e há guias para criar um IGV hospedado na AWS. A versão pública da web não é suportada porque requer CORS.
O IGV local depende da AWS configuração local para acessar arquivos. Certifique-se de que a função usada nessa configuração tenha uma política anexada que habilite as GetObject permissões kms: Decrypt e s3: para o URI s3 dos conjuntos de leitura que estão sendo acessados. Depois disso, no IGV, você pode usar “Arquivo > carregar do URL” e colar o URI da fonte e do índice. Como alternativa, o presigned URLs pode ser gerado e usado da mesma maneira, o que ignorará a configuração da AWS. Observe que o CORS não é compatível com o acesso ao URI do Amazon S3, portanto, solicitações que dependem do CORS não são suportadas.
O exemplo do AWS Hosted IGV depende do AWS Cognito para criar as configurações e permissões corretas dentro do ambiente. Certifique-se de que seja criada uma política que habilite as permissões KMS:DECRYPT e s3: GetObject para o URI do Amazon S3 dos conjuntos de leitura que estão sendo acessados e adicione essa política à função atribuída ao grupo de usuários do Cognito. Depois disso, no IGV, você pode usar “Arquivo > carregar do URL” e inserir o URI da fonte e do índice. Como alternativa, o presigned URLs pode ser gerado e usado da mesma maneira, o que ignora a configuração da AWS.
Observe que o armazenamento de sequências não aparecerá na guia “Amazon” porque ela exibe apenas buckets de sua propriedade na região em que o AWS perfil está configurado.
Usando Samtools ou HTSlib em HealthOmics
HTSlib é a biblioteca principal compartilhada por várias ferramentas, como Samtools, RSAMtools e outras. PySam Use a HTSlib versão 1.20 ou posterior para obter suporte contínuo para pontos de acesso do Amazon S3. Para versões mais antigas da HTSlib biblioteca, você pode usar as seguintes soluções alternativas:
-
Defina a variável de ambiente para o host HTS Amazon S3 com:.
export HTS_S3_HOST="s3.
region
.amazonaws.com" -
Gere uma URL pré-assinada para os arquivos que você deseja usar. Se um BAM ou CRAM estiver sendo usado, certifique-se de que um URL pré-assinado seja gerado tanto para o arquivo quanto para o índice. Depois disso, os dois arquivos podem ser usados com as bibliotecas.
-
Use Mountpoint para montar o armazenamento de sequências ou ler o prefixo do conjunto no mesmo ambiente em que você está usando bibliotecas. HTSlib A partir daqui, os arquivos podem ser acessados usando caminhos de arquivo locais.
Usando Mountpoint HealthOmics
O Mountpoint for Amazon S3 é um cliente de arquivos simples e de alto rendimento para montar um bucket do Amazon S3 como um sistema de arquivos local
O Mountpoint pode ser instalado usando as instruções de instalação do Mountpoint
mount-s3
access point arn
--prefix
local path to mount
--region
prefix to sequence store or read set
region
Usando CloudFront com HealthOmics
CloudFront A Amazon é um serviço de rede de entrega de conteúdo (CDN) criado para oferecer alto desempenho, segurança e conveniência para desenvolvedores. Os clientes que desejam usar CloudFront devem trabalhar com a equipe de serviços para ativar a CloudFront distribuição. Trabalhe com sua equipe de contas para engajar a equipe HealthOmics de atendimento.