什麼是 AWS HealthOmics? - AWS HealthOmics

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 AWS HealthOmics?

AWS HealthOmics 是一項 AWS 服務,可協助生物資訊學家、研究人員和科學家等使用者儲存、查詢、分析和產生來自基因體和其他生物資料的洞見。它簡化並加速為研究和臨床組織儲存和分析基因體資訊的程序,並使科學探索和洞見產生更快。

HealthOmics 有三個主要元件。HealthOmics Storage 可協助您以每 GB 的低成本,有效率地存放和共用 PB 的基因體資料。HealthOmics Analytics 可簡化您準備基因體資料的方式,以進行多體學和多模態分析。HealthOmics Workflows 會自動為您的生物資訊學運算佈建和擴展基礎基礎設施。

重要通知

HealthOmics 無法取代專業醫療建議、診斷或治療,也無法修復、治療、緩解、預防或診斷任何疾病或健康狀況。您負責將人工審核作為任何用途的一部分 AWS HealthOmics,包括與旨在告知臨床決策的任何第三方產品相關。

HealthOmics 僅用於傳輸、儲存、格式化或顯示資料,以及提供用於管理工作流程的基礎設施和組態支援。 AWS HealthOmics 並非直接執行變體呼叫或基因體分析和解釋。 AWS HealthOmics 並非用於解釋或分析臨床實驗室測試或其他裝置資料、結果和調查結果,也不能取代用於基因體分析的第三方工具。

HealthOmics 概念

本主題涵蓋 HealthOmics 特有的關鍵概念和術語的定義,以協助您了解 HealthOmics 使用本指南的術語。

儲存

資料儲存體會分為序列存放區、用於基因體序列和相關資訊,以及用於所有參考基因體的參考存放區。下列術語說明 HealthOmics 特有的實作。

  • 序列存放區 – 用於儲存基因體檔案的資料存放區。您可以在 HealthOmics 中擁有一或多個序列存放區。您可以在序列存放區上設定存取許可和 AWS KMS 加密,以控制誰可以存取資料。

  • 讀取集 – 讀取集是基因體讀取的抽象,以 FASTQ、BAM 或 CRAM 格式儲存。讀取集可以匯入序列存放區,並以中繼資料標註。您可以使用屬性型存取控制 (ABAC) 將許可套用至讀取集。

  • 參考 – 基因體參考會與讀取搭配使用,以識別特定讀取或一組讀取映射到的基因體。這些格式為 FASTA,並存放在參考存放區中。

  • 參考存放區 – 用於儲存參考基因體的資料存放區。您可以在每個帳戶和區域中擁有單一參考存放區。

分析

您可以使用 HealthOmics Analytics 轉換和分析基因體資料。建立變體存放區或註釋存放區,以包含查詢的其他資訊。

  • 變體存放區 – 以人口規模存放變體資料的資料存放區。變體存放區支援基因體變體呼叫格式 (gVCF) 和 VCF 輸入。

  • 註釋存放區 – 代表註釋資料庫的資料存放區,例如來自 TSV/CSV、VCF 或一般功能格式 (GFF3) 檔案的資料存放區。註釋存放區會在匯入期間對應至與變體存放區相同的座標系統。

工作流程

透過 HealthOmics 工作流程,您可以處理和分析基因體資料。

  • 工作流程 – 端對端程序的整體定義,包括參數和工具的參考。工作流程定義可以表示為 WDL、Nextflow 或 CWL。每個建立的工作流程都有唯一的識別符。

  • 執行 – 工作流程的單一調用。個別執行會使用您定義的輸入資料,並產生輸出。每個建立的執行都有唯一的識別符。

  • 任務 – 執行中的個別程序。HealthOmics Workflows 使用這些定義的運算規格來執行您的任務。每個任務都有唯一的識別符。

  • 執行群組 – 一組執行,您可以設定最大 vCPU、最大持續時間或最大並行執行,以協助限制每次執行所使用的運算資源。您可以在執行群組中指定和設定執行的優先順序。例如,您可以指定在優先順序較低的執行之前執行高優先順序執行,以建立優先順序佇列。使用執行群組是選用的,而且每個執行群組都有唯一的識別符。

HealthOmics 功能

HealthOmics 提供下列功能。

  • HealthOmics Storage – 可協助您以低成本、每 GB 的成本,有效率地存放和共用 PB 的原始基因體資料。

  • HealthOmics Analytics — 簡化了如何準備基因體資料以進行多體學和多模態分析。

  • HealthOmics 工作流程 — 為您的生物資訊工作流程自動佈建和擴展基礎基礎設施。

您可以獨立使用每個元件,或做為整合式end-to-end解決方案的一部分。

HealthOmics 為您提供下列優點。

  • 安全地存放和合併基因體資料 — HealthOmics 整合其他 AWS 服務, AWS Lake Formation 例如 和 Amazon Athena。您可以安全地存放您的基因體資料,然後查詢或結合其與醫療歷史記錄資料,以獲得更好的診斷和個人化治療計劃。

  • 保護患者隱私權 — HealthOmics 符合 HIPAA 資格。它還與 IAM 和 Amazon CloudWatch 整合,以便您可以控制和記錄資料存取,並追蹤資料在分析中如何使用。

  • 專為擴展而建置:使用簡化的帳單和新的協同合作工具支援大型人口資料分析。

  • 最大化效率 — 使用自動化工作流程和整合工具來簡化資料處理和分析。

您可以將 HealthOmics 用於下列生物醫學應用程式:

  • 人口排序 — 一次查詢數千個基因組,以了解基因組變化如何映射到人口的表型。

  • 臨床基因體 — 建置從排序器輸出到可報告資料的可重複基因體工作流程。您也可以最佳化高磁碟區輸送量,並設定高優先順序臨床樣本的運算需求,以減少周轉時間。

  • 臨床試驗 — 將基因組分析整合到臨床試驗,以更好地了解新的候選藥物的有效性。透過長期節省成本和資料來源來簡化和加速臨床試驗,以符合管理機構的規定。

  • 增強研究和創新 — 使用內建的資料列和資料欄型存取控制,簡化和控制匿名化基因體資料的儲存、存取和分析。

下列 服務適用於 HealthOmics。

  • Amazon Elastic Container Registry – 每個私有工作流程使用 Amazon ECR 映像 (在私有 Amazon ECR 儲存庫中) 來包含執行工作流程所需的所有可執行檔、程式庫和指令碼。

  • Amazon Simple Storage Service – Amazon S3 為儲存和工作流程資料提供檔案儲存。

  • AWS Lake Formation – Lake Formation 管理對 Analytics 資料存放區的資料存取。

  • Amazon Athena – 使用 Athena 對變體存放區執行查詢。

  • Amazon SageMaker AI – 使用 SageMaker AI 使用 Jupyter 筆記本執行 HealthOmics 任務。

AWS HealthOmics 的區域和端點

如需區域和端點的完整清單,請參閱 AWS 一般參考

除了預設作用中 AWS 的區域之外,還需要啟用選擇加入區域。若要進一步了解如何啟用或停用區域,請參閱《帳戶管理指南》中的指定 AWS 您的帳戶可以使用的區域。 AWS

如何存取 HealthOmics

您可以使用 管理主控台、CLI、 SDKs或 API 來存取 AWS HealthOmics 功能。

  • AWS 管理主控台 – 提供可用來存取 HealthOmics 的 Web 界面。

  • AWS Command Line Interface (AWS CLI) – 為廣泛的 AWS 服務提供命令,包括 Windows AWS HealthOmics、macOS 和 Linux 支援 和 。如需安裝 的詳細資訊 AWS CLI,請參閱 AWS Command Line Interface

  • AWS SDKs – AWS 提供SDKs開發套件 (軟體開發套件),其中包含適用於各種程式設計語言和平台 (包括 Java、Python、Ruby、.NET、iOS 和 Android) 的程式庫和範本程式碼。SDKs提供以程式設計方式使用 HealthOmics 的便利方式。如需詳細資訊,請參閱 AWS SDK 開發人員中心

  • AWS API – 您可以使用 API 操作,以程式設計方式存取和管理 HealthOmics。如需詳細資訊,請參閱 HealthOmics API 參考

進一步了解

從這些研討會和教學課程進一步了解 HealthOmics:

熟悉其他 HealthOmics 工具, AWS 提供: