創建 HDFS 的位置 - AWS DataSync

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

創建 HDFS 的位置

當您在任務中建立位置時,會將其設定為來源或目的地位置。

若要連線至 Hadoop 分散式檔案系統 (HDFS) 群集,請AWS DataSync使用代理程式。代理程式是您在 HDFS 叢集附近部署的虛擬機器。若要進一步了解 DataSync 代理程式,請參閱使用代理程式。數 DataSync 代理程序充當 HDFS 客戶端,並與您的集群中的名稱節點和 DataNodes 點進行通信。

當您啟動工作時,DataSync 會查詢叢集上檔案和資料夾的位置的 NameNode。如果 HDFS 位置設定為來源,則 DataSync 會從叢集中的 DataNodes Sync 讀取檔案和資料夾資料,並將資料複製到目的地。如果將 HDFS 位置設定為目的地,則 DataSync 會將檔案和資料夾從目的地寫入叢集中的 DataSync。執行 DataSync 工作之前,請確認代理程式與 HDFS 叢集的連線能力。如需詳細資訊,請參閱 測試與自我管理儲存裝置的連線

Authentication

連線至 HDFS 叢集時,DataSync 支援簡單驗證或 Kerberos 驗證。若要使用簡單驗證,請提供使用者具有讀取和寫入 HDFS 叢集的權限的使用者名稱。若要使用 Kerberos 驗證,請提供 Kerberos 組態檔、Kerberos 索引鍵表格 (Keytab) 檔案,以及 Kerberos 主要名稱。Kerberos 主體的認證必須位於提供的金鑰索引標籤檔案中。

Encryption

使用 Kerberos 驗證時,DataSync 支援在 DataSync 代理程式與 HDFS 叢集之間傳輸的資料加密。使用 HDFS 叢集上的保護品質 (QOP) 組態設定,並在建立 HDFS 位置時指定 QOP 設定來加密資料。QOP 組態包含資料傳輸保護和遠端程序呼叫 (RPC) 保護的設定。

DataSync 支援下列 Kerberos 加密類型:

  • 中心地圖-中心地圖

  • 描述 CBC-md4

  • 描述 CBC-MD5

  • 描述 3-cbc-sha1

  • 弧四 hmac

  • 弧四小時-經驗值

  • 美容 128 公里-哈馬克

  • 美容中心-長途電腦

  • 美容中心-長途電腦-長途電腦

  • 衛生學習中心-夏威夷

  • 山茶花 128 公分 (CCA)

  • 山茶花 256 公分-卡士多功能

您也可以使用透明資料加密 (TDE),設定 HDFS 叢集進行靜用的加密。使用簡單驗證時,DataSync 會讀取和寫入已啟用 TDE 的叢集。如果您使用 DataSync 將資料複製到啟用 Tde 的叢集,請先在 HDFS 叢集上設定加密區域。DataSync 不會建立加密區域。

注意

在創建 HDFS 位置之前,請驗證代理程序和 Hadoop 集群之間的網絡連接。測試對所列 TCP 連接埠的存取權 連線至自我管理儲存裝置的網路需求 資料表。若要測試本機代理程式與 Hadoop 叢集之間的存取權限,請遵循測試與自我管理儲存裝置的連線

建立 HDFS 位置

  1. 開啟AWS DataSync主控台位於https://console.aws.amazon.com/datasync/

  2. Locations (位置) 頁面上,選擇 Create location (建立位置)

  3. 對於位置類型中,選擇Hadoop 分散式檔案系統 (HDFS)。您稍後可以將此位置設定為來源或目的地。

  4. 適用於代理程式中,從可用代理程式清單中選擇您要使用的一或多個代理程式。代理程式連接至您的 HDFS 叢集,在 HDFS 叢集與 DataSync 之間安全地傳送資料。

  5. 適用於NameNode,提供 HDFS 群集的主要 NameNode 的域名或 IP 地址。

  6. 適用於資料夾,請在 HDFS 叢集上輸入 DataSync 將用於資料傳輸的資料夾。當該位置用作工作的來源時,DataSync 會複製所提供的資料夾中的檔案。當您的位置做為工作的目的地時,DataSync 會將所有檔案寫入所提供的資料夾。

  7. 若要設定區塊大小或者複寫係數中,選擇其他設定。預設的區塊大小為 128 MiB,且任何提供的區塊大小必須是 512 個位元組的倍數。將數據傳輸到 HDFS 集群時,默認的複製因素是三個數據節點。

  8. 在 中安全性區段中,選擇身份驗證類型在您的 HDFS 集群上使用。

    • 簡便— 提供使用者具有 HDFS 叢集的讀取和寫入許可。選擇性地提供 HDFS 叢集之金鑰管理伺服器 (KMS) 的 URI。

    • Kerberos— 提供科爾貝羅斯Principal可以訪問您的 HDFS 集群。接下來,提供鍵索引標籤檔,其中包含所提供的 Kerberos 主體。然後,提供Kerberos 組態檔案。最後,指定傳輸保護中的加密類型,請在RPC 防護資料傳輸保護下拉式清單。

  9. (選用)標籤是協助您管理、篩選和搜尋位置的索引鍵/值組。新增標籤是選用的。建議您使用標籤來為資源命名。

  10. 完成時,請選擇 Create location (建立位置)

不支援的 HDFS 功能

DataSync 目前不支援 HDFS 的下列功能:

  • 使用 Kerberos 驗證時的透明資料加密 (TDE)

  • 配置多個名稱節點

  • 通過 HTTP(Hadoop)

  • POSIX 存取控制清單 (ACL)

  • HDFS 擴展屬性(Xattrs)