本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用萬迪斯可直播資料移轉器將 Hadoop 資料移轉到 Amazon S3
創作由托尼·韋爾西奇
來源:內部部署 Hadoop 叢集 | 目標:Amazon S3 | R 類型:主體變更 |
:生產 | 技術:資料湖; 大數據; 混合雲; 移轉 | 工作負載:所有其他工作負載 |
AWS 服務:Amazon S3 |
Summary
此模式描述從 Hadoop 分散式檔案系統 (HDFS) 遷移 Apache Hadoop 資料到 Amazon Simple Storage Service (Amazon S3) 的程序。它使用萬迪斯科 LiveDisco 數據遷移器來自動化數據遷移過程。
先決條件和限制
先決條件
Hadoop 集群邊緣節點,其中 Live數據遷移器將被安裝。節點應符合下列需求:
最低規格:4 個 CPU、16 GB 記憶體、100 GB 儲存空間。
最低 2 Gbps 網路。
連接埠 8081 可存取您的邊緣節點,以存取 WanDisco 使用者介面。
64 位元。
安裝在邊緣節點上的 Hadoop 客戶端庫。
能夠驗證為HDFS 超級使用者
(例如,「hdfs」)。 如果您的 Hadoop 叢集上啟用 Kerberos,則必須在邊緣節點上提供包含適合 HDFS 超級使用者主體的有效金鑰索引標籤。
請參閱版本備註
以取得支援作業系統的清單。
存取 S3 儲存貯體的作用中 AWS 帳戶。
在現場部署 Hadoop 叢集 (特別是邊緣節點) 和 AWS 之間建立的 AWS AWS Direct Connect 結。
產品版本
直播資料移轉程式 1.8.6
萬迪斯可使用者介面 (Oneeui) 5.8.0
Architecture
來源技術堆疊
內部部署 Hadoop 叢集
目標技術堆疊
Amazon S3
架構
下圖顯示 LiveData 遷移器解決方案架構。

此工作流程包含四個主要元件,可用於從現場部署 HDFS 遷移到 Amazon S3 的資料。
直播資料遷移程式
— 自動將資料從 HDFS 遷移到 Amazon S3,並駐留在 Hadoop 叢集的邊緣節點上。 HDFS
— 提供應用程式資料的高輸送量存取的分散式檔案系統。 Amazon S3
— 一種物件儲存服務,提供延展性、資料可用性、安全性和效能。 AWS Direct Connect— 一種服務,可從現場部署資料中心到 AWS 建立專用網路連線建立過程。
自動化和擴展
您通常會創建多個遷移,以便您可以通過路徑或目錄從源文件系統中選擇特定內容。您也可以定義多個移轉資源,同時將資料移轉至多個獨立的檔案系統。
Epics
任務 | 描述 | 所需技能 |
---|---|---|
登入 AWS 帳戶。 | 登入 AWS 管理主控台,然後前往 https://console.aws.amazon.com/s3/ 開啟 Amazon S3 主控台。 | AWS 經驗 |
建立 S3 儲存貯體。 | 如果您還沒有現有的 S3 儲存貯體用作目標儲存貯體,請在 Amazon S3 主控台上選擇「建立儲存貯體」選項,然後為區塊公用存取指定儲存貯體名稱、AWS 區域和儲存貯體設定。AWS 和 WanDisco 建議您啟用 S3 儲存貯體的區塊公用存取選項,並設定儲存貯體存取和使用者權限政策以符合組織的需求。在 https://docs.aws.amazon.com/AmazonS3/latest/dev/example-walkthroughs-managing-access-example1.html 中提供了一個 AWS 範例。 | AWS 經驗 |
任務 | 描述 | 所需技能 |
---|---|---|
下載 LiveData 移轉程式安裝程式。 | 下載 LiveData 移轉程式安裝程式,並將其上傳到 Hadoop 邊緣節點。您可以在 https://www2.wandisco.com/ldm-trial 下載免費試用 LiveData 移轉器。您也可以從 AWS Marketplace 的 https://aws.amazon.com/marketplace/pp/B07B8SZND9 取得 LiveData 移轉程式的存取權。 | Hadoop 管理員,應用程序所有者 |
安裝即時資料移轉程式。 | 使用下載的安裝程式,並將 LiveData 移轉程式安裝為 Hadoop 叢集的邊緣節點上的 HDFS 超級使用者。如需安裝命令,請參閱 < 其他資訊 > 一節。 | Hadoop 管理員,應用程序所有者 |
檢查 LiveData 移轉程式和其他服務的狀態。 | 使用 < 其他資訊 > 一節所提供的命令,檢查 LiveData 移轉器、Hive 移轉器和 WanDisco UI 的狀態。 | Hadoop 管理員,應用程序所有者 |
任務 | 描述 | 所需技能 |
---|---|---|
註冊您的 LiveData 移轉程式帳戶。 | 透過連接埠 8081 (在 Hadoop 邊緣節點上) 的網頁瀏覽器登入 WanDisco 使用者介面,並提供您的詳細資料以進行註冊。例如,如果您在名為我的主機上執行「即時資料移轉程式」,則 URL 會是:http://myldmhost.example.com:8081 | 應用程式擁有 |
設定您的來源 HDFS 儲存空間。 | 提供來源 HDFS 儲存所需的組態詳細資料。這將包括「FS.defaultFS」值和使用者定義的存放裝置名稱。如果啟用 Kerberos,請提供主參與者和金鑰索引標籤位置供 LiveData 移轉程式使用。如果叢集上已啟用 NameNode HA,請提供邊緣節點上 core-site.xml 和 hdfs-site.xml 檔案的路徑。 | Hadoop 管理員,應用程序所有者 |
配置您的目標 Amazon S3 儲存體。 | 將目標儲存區新增為 S3a 類型。提供使用者定義的儲存區名稱和 S3 儲存貯體名稱。在登入資料提供者選項中輸入「Org.apache.fs.s3a.簡單的牙齒提供者」,並提供 S3 儲存貯體的 AWS 存取權和密鑰。還需要額外的 S3a 屬性。如需詳細資料,請參閱「S3a 屬性」一節,在 https://docs.wandisco.com/live-data-migrator/docs/command-reference/#filesystem-add-s3a 的 LiveData 移轉程式說明文件中。 | AWS,應用程式擁有者 |
任務 | 描述 | 所需技能 |
---|---|---|
新增排除項目 (如果需要)。 | 如果您想要從移轉中排除特定資料集,請新增來源 HDFS 儲存體的排除項目。這些排除項目可以根據檔案大小、檔案名稱 (根據規則運算式病毒碼) 和修改日期。 | Hadoop 管理員,應用程序所有者 |
任務 | 描述 | 所需技能 |
---|---|---|
建立和設定移轉。 | 在 WanDisco 使用者介面的儀表板中建立移轉。選擇您的源代碼(HDFS)和目標(S3 存儲桶)。新增您在上一個步驟中定義的新排除項目。選取「覆寫」或「如果大小相符,則略過」選項。當所有欄位都完成時,建立移轉。 | Hadoop 管理員,應用程序所有者 |
開始遷移。 | 在儀表板上,選取您建立的遷移。按一下以開始遷移。您也可以在建立移轉時選擇自動啟動選項,自動啟動移轉。 | 應用程式擁有 |
任務 | 描述 | 所需技能 |
---|---|---|
設定來源和目標間的網路頻寬限制。 | 在儀表板的 [儲存] 清單中,選取您的來源儲存體,然後在 [群組] 清單中選取 [頻寬管理]。清除無限制的選項,並定義最大頻寬限制和單位。選擇「套用」。 | 應用程式擁有者,網路 |
任務 | 描述 | 所需技能 |
---|---|---|
使用 WanDisco 使用者介面檢視移轉資訊。 | 使用 WanDisco 使用者介面來檢視授權、頻寬、儲存和移轉資訊。UI 也提供通知系統,讓您可以在使用中接收有關錯誤、警告或重要里程碑的通知。 | Hadoop 管理員,應用程序所有者 |
停止、繼續和刪除遷移。 | 您可以將內容轉移置於「已停止」狀態,以停止將內容轉移到目標。停止的遷移可以恢復。在停止狀態的遷移也可以被刪除。 | Hadoop 管理員,應用程序所有者 |
相關資源
其他資訊
安裝即時資料移轉程式
假設安裝程式位於您的工作目錄內,您可以使用下列命令來安裝 LiveData Migrator:
su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh
安裝後檢查 LiveData 移轉器和其他服務的狀態
使用下列命令來檢查 LiveData 遷移程式、Hive 遷移程式和 Wanvideo UI 的狀態:
service livedata-migrator status service hivemigrator status service livedata-ui status