使用萬迪斯可直播資料移轉器將 Hadoop 資料移轉到 Amazon S3 - AWS Prescriptive Guidance

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用萬迪斯可直播資料移轉器將 Hadoop 資料移轉到 Amazon S3

創作由托尼·韋爾西奇

來源:內部部署 Hadoop 叢集

目標:Amazon S3

R 類型:主體變更

生產

技術:資料湖; 大數據; 混合雲; 移轉

工作負載:所有其他工作負載

AWS 服務:Amazon S3

Summary

此模式描述從 Hadoop 分散式檔案系統 (HDFS) 遷移 Apache Hadoop 資料到 Amazon Simple Storage Service (Amazon S3) 的程序。它使用萬迪斯科 LiveDisco 數據遷移器來自動化數據遷移過程。

先決條件和限制

先決條件

  • Hadoop 集群邊緣節點,其中 Live數據遷移器將被安裝。節點應符合下列需求:

    • 最低規格:4 個 CPU、16 GB 記憶體、100 GB 儲存空間。

    • 最低 2 Gbps 網路。

    • 連接埠 8081 可存取您的邊緣節點,以存取 WanDisco 使用者介面。

    • 64 位元。

    • 安裝在邊緣節點上的 Hadoop 客戶端庫。

    • 能夠驗證為HDFS 超級使用者(例如,「hdfs」)。

    • 如果您的 Hadoop 叢集上啟用 Kerberos,則必須在邊緣節點上提供包含適合 HDFS 超級使用者主體的有效金鑰索引標籤。

    • 請參閱版本備註以取得支援作業系統的清單。

  • 存取 S3 儲存貯體的作用中 AWS 帳戶。

  • 在現場部署 Hadoop 叢集 (特別是邊緣節點) 和 AWS 之間建立的 AWS AWS Direct Connect 結。

產品版本

  • 直播資料移轉程式 1.8.6

  • 萬迪斯可使用者介面 (Oneeui) 5.8.0

Architecture

來源技術堆疊

  • 內部部署 Hadoop 叢集

目標技術堆疊

  • Amazon S3

架構

下圖顯示 LiveData 遷移器解決方案架構。

此工作流程包含四個主要元件,可用於從現場部署 HDFS 遷移到 Amazon S3 的資料。

  • 直播資料遷移程式— 自動將資料從 HDFS 遷移到 Amazon S3,並駐留在 Hadoop 叢集的邊緣節點上。

  • HDFS— 提供應用程式資料的高輸送量存取的分散式檔案系統。

  • Amazon S3— 一種物件儲存服務,提供延展性、資料可用性、安全性和效能。

  • AWS Direct Connect— 一種服務,可從現場部署資料中心到 AWS 建立專用網路連線建立過程。

自動化和擴展

您通常會創建多個遷移,以便您可以通過路徑或目錄從源文件系統中選擇特定內容。您也可以定義多個移轉資源,同時將資料移轉至多個獨立的檔案系統。

Epics

任務描述所需技能
登入 AWS 帳戶。

登入 AWS 管理主控台,然後前往 https://console.aws.amazon.com/s3/ 開啟 Amazon S3 主控台。

AWS 經驗
建立 S3 儲存貯體。

如果您還沒有現有的 S3 儲存貯體用作目標儲存貯體,請在 Amazon S3 主控台上選擇「建立儲存貯體」選項,然後為區塊公用存取指定儲存貯體名稱、AWS 區域和儲存貯體設定。AWS 和 WanDisco 建議您啟用 S3 儲存貯體的區塊公用存取選項,並設定儲存貯體存取和使用者權限政策以符合組織的需求。在 https://docs.aws.amazon.com/AmazonS3/latest/dev/example-walkthroughs-managing-access-example1.html 中提供了一個 AWS 範例。

AWS 經驗
任務描述所需技能
下載 LiveData 移轉程式安裝程式。

下載 LiveData 移轉程式安裝程式,並將其上傳到 Hadoop 邊緣節點。您可以在 https://www2.wandisco.com/ldm-trial 下載免費試用 LiveData 移轉器。您也可以從 AWS Marketplace 的 https://aws.amazon.com/marketplace/pp/B07B8SZND9 取得 LiveData 移轉程式的存取權。

Hadoop 管理員,應用程序所有者
安裝即時資料移轉程式。

使用下載的安裝程式,並將 LiveData 移轉程式安裝為 Hadoop 叢集的邊緣節點上的 HDFS 超級使用者。如需安裝命令,請參閱 < 其他資訊 > 一節。

Hadoop 管理員,應用程序所有者
檢查 LiveData 移轉程式和其他服務的狀態。

使用 < 其他資訊 > 一節所提供的命令,檢查 LiveData 移轉器、Hive 移轉器和 WanDisco UI 的狀態。

Hadoop 管理員,應用程序所有者
任務描述所需技能
註冊您的 LiveData 移轉程式帳戶。

透過連接埠 8081 (在 Hadoop 邊緣節點上) 的網頁瀏覽器登入 WanDisco 使用者介面,並提供您的詳細資料以進行註冊。例如,如果您在名為我的主機上執行「即時資料移轉程式」,則 URL 會是:http://myldmhost.example.com:8081

應用程式擁有
設定您的來源 HDFS 儲存空間。

提供來源 HDFS 儲存所需的組態詳細資料。這將包括「FS.defaultFS」值和使用者定義的存放裝置名稱。如果啟用 Kerberos,請提供主參與者和金鑰索引標籤位置供 LiveData 移轉程式使用。如果叢集上已啟用 NameNode HA,請提供邊緣節點上 core-site.xml 和 hdfs-site.xml 檔案的路徑。

Hadoop 管理員,應用程序所有者
配置您的目標 Amazon S3 儲存體。

將目標儲存區新增為 S3a 類型。提供使用者定義的儲存區名稱和 S3 儲存貯體名稱。在登入資料提供者選項中輸入「Org.apache.fs.s3a.簡單的牙齒提供者」,並提供 S3 儲存貯體的 AWS 存取權和密鑰。還需要額外的 S3a 屬性。如需詳細資料,請參閱「S3a 屬性」一節,在 https://docs.wandisco.com/live-data-migrator/docs/command-reference/#filesystem-add-s3a 的 LiveData 移轉程式說明文件中。

AWS,應用程式擁有者
任務描述所需技能
新增排除項目 (如果需要)。

如果您想要從移轉中排除特定資料集,請新增來源 HDFS 儲存體的排除項目。這些排除項目可以根據檔案大小、檔案名稱 (根據規則運算式病毒碼) 和修改日期。

Hadoop 管理員,應用程序所有者
任務描述所需技能
建立和設定移轉。

在 WanDisco 使用者介面的儀表板中建立移轉。選擇您的源代碼(HDFS)和目標(S3 存儲桶)。新增您在上一個步驟中定義的新排除項目。選取「覆寫」或「如果大小相符,則略過」選項。當所有欄位都完成時,建立移轉。

Hadoop 管理員,應用程序所有者
開始遷移。

在儀表板上,選取您建立的遷移。按一下以開始遷移。您也可以在建立移轉時選擇自動啟動選項,自動啟動移轉。

應用程式擁有
任務描述所需技能
設定來源和目標間的網路頻寬限制。

在儀表板的 [儲存] 清單中,選取您的來源儲存體,然後在 [群組] 清單中選取 [頻寬管理]。清除無限制的選項,並定義最大頻寬限制和單位。選擇「套用」。

應用程式擁有者,網路
任務描述所需技能
使用 WanDisco 使用者介面檢視移轉資訊。

使用 WanDisco 使用者介面來檢視授權、頻寬、儲存和移轉資訊。UI 也提供通知系統,讓您可以在使用中接收有關錯誤、警告或重要里程碑的通知。

Hadoop 管理員,應用程序所有者
停止、繼續和刪除遷移。

您可以將內容轉移置於「已停止」狀態,以停止將內容轉移到目標。停止的遷移可以恢復。在停止狀態的遷移也可以被刪除。

Hadoop 管理員,應用程序所有者

其他資訊

安裝即時資料移轉程式

假設安裝程式位於您的工作目錄內,您可以使用下列命令來安裝 LiveData Migrator:

su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

安裝後檢查 LiveData 移轉器和其他服務的狀態

使用下列命令來檢查 LiveData 遷移程式、Hive 遷移程式和 Wanvideo UI 的狀態:

service livedata-migrator status service hivemigrator status service livedata-ui status