本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
什麼是 AWS HealthOmics?
AWS HealthOmics 是一項 AWS 服務,可協助生物資訊學家、研究人員和科學家等使用者儲存、查詢、分析和產生來自基因體和其他生物資料的洞見。它簡化並加速為研究和臨床組織儲存和分析基因體資訊的程序,並使科學探索和洞見產生更快。
HealthOmics 有三個主要元件。HealthOmics Storage 可協助您以每 GB 的低成本,有效率地存放和共用 PB 的基因體資料。HealthOmics Analytics 可簡化您準備基因體資料的方式,以進行多體學和多模態分析。HealthOmics Workflows 會自動為您的生物資訊學運算佈建和擴展基礎基礎設施。
重要通知
HealthOmics 無法取代專業醫療建議、診斷或治療,也無法修復、治療、緩解、預防或診斷任何疾病或健康狀況。您負責將人工審核作為任何用途的一部分 AWS HealthOmics,包括與旨在告知臨床決策的任何第三方產品相關。
HealthOmics 僅用於傳輸、儲存、格式化或顯示資料,以及提供用於管理工作流程的基礎設施和組態支援。 AWS HealthOmics 並非直接執行變體呼叫或基因體分析和解釋。 AWS HealthOmics 並非用於解釋或分析臨床實驗室測試或其他裝置資料、結果和調查結果,也不能取代用於基因體分析的第三方工具。
HealthOmics 概念
本主題涵蓋 HealthOmics 特有的關鍵概念和術語的定義,以協助您了解 HealthOmics 使用本指南的術語。
儲存
資料儲存體會分為序列存放區、用於基因體序列和相關資訊,以及用於所有參考基因體的參考存放區。下列術語說明 HealthOmics 特有的實作。
-
序列存放區 – 用於儲存基因體檔案的資料存放區。您可以在 HealthOmics 中擁有一或多個序列存放區。您可以在序列存放區上設定存取許可和 AWS KMS 加密,以控制誰可以存取資料。
-
讀取集 – 讀取集是基因體讀取的抽象,以 FASTQ、BAM 或 CRAM 格式儲存。讀取集可以匯入序列存放區,並以中繼資料標註。您可以使用屬性型存取控制 (ABAC) 將許可套用至讀取集。
-
參考 – 基因體參考會與讀取搭配使用,以識別特定讀取或一組讀取映射到的基因體。這些格式為 FASTA,並存放在參考存放區中。
-
參考存放區 – 用於儲存參考基因體的資料存放區。您可以在每個帳戶和區域中擁有單一參考存放區。
分析
您可以使用 HealthOmics Analytics 轉換和分析基因體資料。建立變體存放區或註釋存放區,以包含查詢的其他資訊。
-
變體存放區 – 以人口規模存放變體資料的資料存放區。變體存放區支援基因體變體呼叫格式 (gVCF) 和 VCF 輸入。
-
註釋存放區 – 代表註釋資料庫的資料存放區,例如來自 TSV/CSV、VCF 或一般功能格式 (GFF3) 檔案的資料存放區。註釋存放區會在匯入期間對應至與變體存放區相同的座標系統。
工作流程
透過 HealthOmics 工作流程,您可以處理和分析基因體資料。
-
工作流程 – 端對端程序的整體定義,包括參數和工具的參考。工作流程定義可以表示為 WDL、Nextflow 或 CWL。每個建立的工作流程都有唯一的識別符。
-
執行 – 工作流程的單一調用。個別執行會使用您定義的輸入資料,並產生輸出。每個建立的執行都有唯一的識別符。
-
任務 – 執行中的個別程序。HealthOmics Workflows 使用這些定義的運算規格來執行您的任務。每個任務都有唯一的識別符。
-
執行群組 – 一組執行,您可以設定最大 vCPU、最大持續時間或最大並行執行,以協助限制每次執行所使用的運算資源。您可以在執行群組中指定和設定執行的優先順序。例如,您可以指定在優先順序較低的執行之前執行高優先順序執行,以建立優先順序佇列。使用執行群組是選用的,而且每個執行群組都有唯一的識別符。
HealthOmics 功能
HealthOmics 提供下列功能。
-
HealthOmics Storage – 可協助您以低成本、每 GB 的成本,有效率地存放和共用 PB 的原始基因體資料。
-
HealthOmics Analytics — 簡化了如何準備基因體資料以進行多體學和多模態分析。
-
HealthOmics 工作流程 — 為您的生物資訊工作流程自動佈建和擴展基礎基礎設施。
您可以獨立使用每個元件,或做為整合式end-to-end解決方案的一部分。
HealthOmics 為您提供下列優點。
-
安全地存放和合併基因體資料 — HealthOmics 整合其他 AWS 服務, AWS Lake Formation 例如 和 Amazon Athena。您可以安全地存放您的基因體資料,然後查詢或結合其與醫療歷史記錄資料,以獲得更好的診斷和個人化治療計劃。
-
保護患者隱私權 — HealthOmics 符合 HIPAA 資格。它還與 IAM 和 Amazon CloudWatch 整合,以便您可以控制和記錄資料存取,並追蹤資料在分析中如何使用。
-
專為擴展而建置:使用簡化的帳單和新的協同合作工具支援大型人口資料分析。
-
最大化效率 — 使用自動化工作流程和整合工具來簡化資料處理和分析。
您可以將 HealthOmics 用於下列生物醫學應用程式:
-
人口排序 — 一次查詢數千個基因組,以了解基因組變化如何映射到人口的表型。
-
臨床基因體 — 建置從排序器輸出到可報告資料的可重複基因體工作流程。您也可以最佳化高磁碟區輸送量,並設定高優先順序臨床樣本的運算需求,以減少周轉時間。
-
臨床試驗 — 將基因組分析整合到臨床試驗,以更好地了解新的候選藥物的有效性。透過長期節省成本和資料來源來簡化和加速臨床試驗,以符合管理機構的規定。
-
增強研究和創新 — 使用內建的資料列和資料欄型存取控制,簡化和控制匿名化基因體資料的儲存、存取和分析。
相關服務
下列 服務適用於 HealthOmics。
-
Amazon Elastic Container Registry – 每個私有工作流程使用 Amazon ECR 映像 (在私有 Amazon ECR 儲存庫中) 來包含執行工作流程所需的所有可執行檔、程式庫和指令碼。
-
Amazon Simple Storage Service – Amazon S3 為儲存和工作流程資料提供檔案儲存。
-
AWS Lake Formation – Lake Formation 管理對 Analytics 資料存放區的資料存取。
-
Amazon Athena – 使用 Athena 對變體存放區執行查詢。
-
Amazon SageMaker AI – 使用 SageMaker AI 使用 Jupyter 筆記本執行 HealthOmics 任務。
AWS HealthOmics 的區域和端點
如需區域和端點的完整清單,請參閱 AWS 一般參考。
除了預設作用中 AWS 的區域之外,還需要啟用選擇加入區域。若要進一步了解如何啟用或停用區域,請參閱《帳戶管理指南》中的指定 AWS 您的帳戶可以使用的區域。 AWS
如何存取 HealthOmics
您可以使用 管理主控台、CLI、 SDKs或 API 來存取 AWS HealthOmics 功能。
-
AWS 管理主控台 – 提供可用來存取 HealthOmics 的 Web 界面。
-
AWS Command Line Interface (AWS CLI) – 為廣泛的 AWS 服務提供命令,包括 Windows AWS HealthOmics、macOS 和 Linux 支援 和 。如需安裝 的詳細資訊 AWS CLI,請參閱 AWS Command Line Interface
。 -
AWS SDKs – AWS 提供SDKs開發套件 (軟體開發套件),其中包含適用於各種程式設計語言和平台 (包括 Java、Python、Ruby、.NET、iOS 和 Android) 的程式庫和範本程式碼。SDKs提供以程式設計方式使用 HealthOmics 的便利方式。如需詳細資訊,請參閱 AWS SDK 開發人員中心
。 -
AWS API – 您可以使用 API 操作,以程式設計方式存取和管理 HealthOmics。如需詳細資訊,請參閱 HealthOmics API 參考。
進一步了解
從這些研討會和教學課程進一步了解 HealthOmics:
-
HealthOmics 研討會 – HealthOmics 端對端研討會
-
AWS 基因體資源 – 與基因體相關的公有 Amazon ECR 儲存庫
-
Python 教學課程 – GitHub 上的 Jupyter 筆記本教學
課程,涵蓋 HealthOmics 儲存、分析和工作流程
熟悉其他 HealthOmics 工具, AWS 提供:
-
WDL linter – 適用於 WDL 的 HealthOmics linter
-
Nextflow linter – 適用於 Nextflow 的 HealthOmics linter
-
HealthOmics Amazon ECR 協助工具 – HealthOmics 的 Amazon ECR 協助工具
-
GitHub 上的 HealthOmics 工具 – 使用 HealthOmics 的工具
(Transfer Manager、URI 剖析器、Omics rerun、Run Analyzer)。