資料流程 - AWS 規範指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料流程

資料流程焦點區域包括下列三個區域:

  • 資料擷取

  • 資料保留

  • 數據遷移方法

資料擷取

資料擷取著重於如何將資料匯入您的 Amazon OpenSearch 服務網域。在選擇適合的擷取架構時,徹底瞭解資料來源和格式至關重要。 OpenSearch

有許多不同的方法可以建立或現代化您的擷取設計。有許多開放原始碼工具可用來建置自我管理的擷取管道。 OpenSearch 服務支援與 Fluentd記錄檔或資料預留器整合。OpenSearch 這些工具在大多數日誌分析解決方案開發人員中都很 您可以在 Amazon EC2 執行個體、亞馬 Amazon Elastic Kubernetes Service (Amazon EKS) 或內部部署這些工具。Logstash 和 Fluentd 都支持 Amazon OpenSearch 服務域作為輸出目的地。但是,這將需要您維護,修補,測試並使 Fluentd 或 Logstash 軟件版本保持在最新狀態。

為了減少營運開銷,您可以使用其中一個支援與 Amazon 服務整合的 AWS 受管 OpenSearch 服務。例如,Amazon OpenSearch 擷取是全受管的無伺服器資料收集器,可將即時日誌、指標和追蹤資料傳送至 Amazon OpenSearch 服務網域。透過 OpenSearch 擷取,您不再需要使用第三方解決方案 (例如 Logstash 或 Jaeger) 將資料擷取到您的服務網域中。 OpenSearch 您可以將資料生產者設定為將資料傳送至 OpenSearch 擷取。然後,它會自動將資料傳送至您指定的網域或集合。您也可以將 OpenSearch 擷取設定為在傳送資料之前轉換資料。

另一種選擇是 Amazon Data Firehose,這是一項全受管服務,可協助建立無伺服器擷取管道。Firehose 提供一種安全的方式來擷取、轉換串流資料,以及將串流資料交付給 Amazon OpenSearch 服務網域。它可以自動擴展以符合資料的輸送量,而且不需要持續的管理。Firehose 還可以使用 AWS Lambda,壓縮和批處理數據來轉換傳入記錄,然後再將其加載到您的 OpenSearch 服務域中。

透過受管理服務,您可以淘汰現有的資料擷取管道,也可以擴充目前的設定以減少營運成本。

移轉規劃是評估目前擷取管道是否符合目前和 future 使用案例需求的好時機。如果您要從自我管理的 Elasticsearch 或 OpenSearch 叢集遷移,您的擷取管道應支援將端點從目前叢集交換到 Amazon OpenSearch 服務網域,只需最少的用戶端程式庫更新。

資料保留

規劃資料擷取和儲存時,請務必規劃並同意資料保留。對於日誌分析使用案例,您必須在網域中建立正確的原則來淘汰歷史資料,這一點至關重要。當您從現有的內部部署和雲端 VM 架構遷移時,可能會針對所有資料節點使用特定類型的執行個體。資料節點具有相同的 CPU、記憶體和儲存設定檔。大多數客戶都會設定高輸送量儲存裝置,以滿足其高速索引需求。這種單一的儲存裝置設定檔架構稱為僅熱節點架構,或僅限熱點。僅限熱門架構將儲存與運算結合在一起,這表示您需要在儲存需求增加時新增運算節點。

為了將儲存與運算分離,Amazon OpenSearch 服務提供了 UltraWarm儲存層。 UltraWarm 透過提供可容納比傳統資料節點更大量資料的節點,提供在 Amazon Ser OpenSearch vice 上存放唯讀資料的經濟效益方式。

在規劃期間,決定資料保留和處理需求。若要降低現有解決方案的成本,請充分利用 UltraWarm 層級。識別資料的保留需求。然後建立索引狀態管理原則,將資料從非常熱移至溫暖狀態,或在不需要時自動從網域刪除資料。這也有助於確保您的域不會用完存儲空間。

資料移轉方法

在規劃階段,您必須決定特定的資料移轉方法。您的資料移轉方法決定了如何將目前資料存放區中的資料移至目標存放區,而不會出現任何間隙。這些方法的程序詳細資訊涵蓋在「階段 4-資料移轉」一節,這是您實作方法的時間。

本節介紹您可以使用將 Elasticsearch 或 OpenSearch 叢集遷移至 Amazon OpenSearch 服務的不同方式和模式。選擇模式時,請考慮以下因素清單(非詳盡無遺):

  • 無論您是要從現有的自我管理叢集複製資料,還是要從原始資料來源 (記錄檔、產品目錄資料庫) 進行重建

  • 來源彈性搜尋或 OpenSearch叢集與目標 Amazon OpenSearch 服務網域的版本相容性

  • 依賴於彈性搜尋或叢集的應用程式和服務 OpenSearch

  • 移轉的可用視窗

  • 現有環境中已編製索引的資料量

從快照建置

快照是從自我管理的 Elasticsearch 叢集遷移至 Amazon 服務的最常用方式。 OpenSearch 快照提供一種使用 Amazon S3 等耐用儲存服務來備份您 OpenSearch 或彈性搜尋資料的方式。使用這種方法,您可以拍攝目前的 Elasticsearch 或 OpenSearch 環境的快照,並在目標 Amazon OpenSearch 服務環境中恢復它。還原快照後,您可以將應用程式指向新環境。在以下情況下,這是一個更快的解決方案:

  • 您的來源和目標是相容的。

  • 現有叢集包含大量的索引資料,重新建立索引可能會很耗時。

  • 您的來源資料不可用於重新建立索引。

如需其他考量,請參閱階段 4 — 資料移轉一節中的快照考量

從源代碼構建

這種方法意味著您不會從當前的 Elasticsearch 或 OpenSearch 集群中移動數據。而是直接從日誌或產品目錄來源重新載入資料到目標 Amazon OpenSearch 服務網域。這通常只需對現有資料擷取管線進行微小變更即可完成。在記錄分析使用案例中,從來源建置可能還需要將歷史記錄從您的來源重新載入至新的 OpenSearch服務環境。對於搜尋使用案例,可能需要將完整的產品目錄和內容重新載入新的 Amazon Ser OpenSearch vice 網域。這種方法在以下情況下效果很好:

  • 您的來源和目標環境版本與快照還原不相容。

  • 您想要在移轉過程中變更目標環境中的資料模型。

  • 您想要跳轉到最新版本的 Amazon OpenSearch 服務以避免滾動升級,並且想要一次性解決突破性變化。如果您要自行管理相對較舊的版本(5.x 或更早版本)的 Elasticsearch,這可能是一個好主意。

  • 您可能想要變更索引策略。例如,您可以在新環境中每個月翻轉,而不是每天滾動一次。

若要取得有關從來源建置的選項的資訊,請參閱 2。從「階段 4-資料移轉」區段中的來源進行建置。

從現有的彈性搜索或環境遠程重新索引 OpenSearch

這種方法使用來自 Amazon OpenSearch 服務的遠程重新索引 API。使用遠端重新索引,您可以將資料直接從現有的現場部署或雲端 Elasticsearch 或 OpenSearch 叢集複製到 Amazon OpenSearch 服務網域。您可以建置可以在兩個環境位置之間保持資料同步的自動化,直到切換到目標環境為止。

使用開放原始碼資料移轉

您可以使用多種開放原始碼工具將資料從現有的 Elasticsearch 環境遷移到目標 Amazon OpenSearch 環境。其中一個例子就是 Logstash 公用程式。您可以使用 Logstash 公用程式從 Elasticsearch 或 OpenSearch 叢集擷取資料,並將其複製到 Amazon 服務網域。 OpenSearch

我們建議您評估所有選項,並選擇您最熟悉的選項。為了確保您選擇的方法是萬無一失的,請在 PoC 階段測試所有工具和自動化。如需如何實作這些方法的詳細資訊和 step-by-step 指引,請參閱階段 4 — 資料移轉一節。