使用 WANdisco LiveData Migrator 將 Hadoop 資料遷移至 Amazon S3

Tony Velcich，Amazon Web Services

Summary

此模式說明將 Apache Hadoop 資料從 Hadoop 分散式檔案系統 (HDFS) 遷移至 Amazon Simple Storage Service (Amazon S3) 的程序。它使用 WANdisco LiveData Migrator 來自動化資料遷移程序。

先決條件

產品版本

來源技術堆疊

目標技術堆疊

架構

下圖顯示 LiveData Migrator 解決方案架構。

工作流程包含四個主要元件，用於將資料從內部部署 HDFS 遷移至 Amazon S3。

自動化和擴展

您通常會建立多個遷移，以便依路徑或目錄從來源檔案系統選取特定內容。您也可以定義多個遷移資源，同時將資料遷移至多個獨立的檔案系統。

任務	描述	所需的技能
登入 AWS 帳戶。	登入 AWS 管理主控台，然後前往 https://console.aws.amazon.com/s3/ 開啟 Amazon S3 主控台。	AWS 體驗
建立 S3 儲存貯體。	如果您還沒有要用作目標儲存的現有 S3 儲存貯體，請在 Amazon S3 主控台上選擇「建立儲存貯體」選項，並指定儲存貯體名稱、AWS 區域和儲存貯體設定以封鎖公開存取。AWS 和 WANdisco 建議您為 S3 儲存貯體啟用封鎖公有存取選項，並設定儲存貯體存取和使用者許可政策，以符合組織的需求。AWS 範例提供於 https：//https://docs.aws.amazon.com/AmazonS3/latest/dev/example-walkthroughs-managing-access-example1.html。	AWS 體驗

任務	描述	所需的技能
下載 LiveData Migrator 安裝程式。	下載 LiveData Migrator 安裝程式並將其上傳至 Hadoop 節點。您可以在 https://www2.wandisco.com/ldm-trial：// 下載 LiveData Migrator 的免費試用。您也可以從 AWS Marketplace 取得 LiveData Migrator 的存取權，網址為 https：//https://aws.amazon.com/marketplace/pp/B07B8SZND9。	Hadoop 管理員，應用程式擁有者
安裝 LiveData Migrator。	使用下載的安裝程式，並在 Hadoop 叢集的節點上安裝 LiveData Migrator 做為 HDFS 超級使用者。如需安裝命令，請參閱「其他資訊」一節。	Hadoop 管理員，應用程式擁有者
檢查 LiveData Migrator 和其他服務的狀態。	使用「其他資訊」區段中提供的命令，檢查 LiveData Migrator、Hive migrator 和 WANdisco UI 的狀態。	Hadoop 管理員，應用程式擁有者

任務	描述	所需的技能
註冊您的 LiveData Migrator 帳戶。	透過連接埠 8081 (Hadoop 節點）上的 Web 瀏覽器登入 WANdisco UI，並提供註冊的詳細資訊。例如，如果您在名為 myldmhost.example.com 的主機上執行 LiveData Migrator，則 URL 將為：http://myldmhost.example.com:8081	應用程式擁有者
設定來源 HDFS 儲存體。	提供來源 HDFS 儲存所需的組態詳細資訊。這將包含 "fs.defaultFS" 值和使用者定義的儲存名稱。如果已啟用 Kerberos，請提供委託人和金鑰標籤位置，以供 LiveData Migrator 使用。如果叢集上已啟用 NameNode HA，請提供節點上 core-site.xml 和 hdfs-site.xml 檔案的路徑。	Hadoop 管理員，應用程式擁有者
設定您的目標 Amazon S3 儲存體。	將目標儲存新增為 S3a 類型。提供使用者定義的儲存體名稱和 S3 儲存貯體名稱。針對登入資料提供者選項輸入「org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider」，並提供 S3 儲存貯體的 AWS 存取和私密金鑰。還需要其他 S3a 屬性。如需詳細資訊，請參閱 LiveData Migrator 文件中的「S3a 屬性」一節，網址為 https：//https://docs.wandisco.com/live-data-migrator/docs/command-reference/#filesystem-add-s3a。	AWS，應用程式擁有者

任務	描述	所需的技能
新增排除項目（如有需要）。	如果您想要從遷移中排除特定資料集，請新增來源 HDFS 儲存的排除。這些排除項目可以根據檔案大小、檔案名稱（根據 regex 模式）和修改日期。	Hadoop 管理員，應用程式擁有者

任務	描述	所需的技能
建立和設定遷移。	在 WANdisco UI 的儀表板中建立遷移。選擇您的來源 (HDFS) 和目標 (S3 儲存貯體）。新增您在上一個步驟中定義的排除項目。選取 "Overwrite" 或 "Skip if Size Match" 選項。在所有欄位完成時建立遷移。	Hadoop 管理員，應用程式擁有者
開始遷移。	在儀表板上，選取您建立的遷移。按一下開始遷移。您也可以在建立遷移時選擇自動啟動選項，以自動開始遷移。	應用程式擁有者

任務	描述	所需的技能
設定來源和目標之間的網路頻寬限制。	在儀表板的儲存體清單中，選取來源儲存體，然後在分組清單中選取「頻寬管理」。清除無限制選項，並定義最大頻寬限制和單位。選擇「套用」。	應用程式擁有者、聯網

任務	描述	所需的技能
使用 WANdisco UI 檢視遷移資訊。	使用 WANdisco UI 來檢視授權、頻寬、儲存和遷移資訊。UI 也提供通知系統，因此您可以接收有關使用中的錯誤、警告或重要里程碑的通知。	Hadoop 管理員，應用程式擁有者
停止、繼續和刪除遷移。	您可以將內容置於 STOPPED 狀態，以停止遷移將內容傳輸到其目標。停止的遷移可以繼續。也可以刪除處於 STOPPED 狀態的遷移。	Hadoop 管理員，應用程式擁有者

安裝 LiveData Migrator

您可以使用下列命令來安裝 LiveData Migrator，假設安裝程式位於您的工作目錄中：


su – hdfs
chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

在安裝後檢查 LiveData Migrator 和其他服務的狀態

使用下列命令來檢查 LiveData Migrator、Hive migrator 和 WANdisco UI 的狀態：


service livedata-migrator status
service hivemigrator status
service livedata-ui status

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

將 Apache Cassandra 工作負載遷移至 Amazon Keyspaces

將 Oracle Business Intelligence 12C 遷移至 AWS 雲端