創建一個 HDFS 位置 - AWS DataSync

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

創建一個 HDFS 位置

要連接到您的 Hadoop 分散式檔案系統 (HDFS) 叢集AWS DataSync使用代理程式。代理程式是您在 HDFS 叢集附近部署的虛擬機器。進一步了解 DataSync 代理程式,請參閱使用AWS DataSync代理商。所以此 DataSync 代理充當 HDFS 客戶端,並與通信 NameNodes 和 DataNodes 在您的叢集中。

剛開始任務時, DataSync 查詢 NameNode 用於叢集上檔案和資料夾的位置。如果 HDFS 位置被配置為源,然後 DataSync 讀取檔案和資料夾資料 DataNodes 在叢集中,並將資料複製到目的地。如果 HDFS 位置被配置為一個目的地,然後 DataSync 將檔案和資料夾從目的地寫入 DataNodes 在叢集中。在運行之前 DataSync 工作中,驗證代理程式與 HDFS 叢集的連線。如需詳細資訊,請參閱 測試儲存系統的連線

身分驗證

連接至 HDFS 叢集時, DataSync 支援簡單驗證或 Kerberos 驗證。若要使用簡單驗證,請提供讀取和寫入 HDFS 叢集之權限的使用者名稱。若要使用 Kerberos 驗證,請提供 Kerberos 組態檔案、Kerberos 金鑰資料表 (金鑰索引標籤) 檔案,以及 Kerberos 主要名稱。Kerberos 主體的認證必須位於提供的金鑰索引標籤檔案中。

加密

使用 Kerberos 驗證時, DataSync 支持數據的加密,因為它是在 DataSync 代理程式和 HDFS 叢集。使用 HDFS 叢集上的保護品質 (QOP) 組態設定,並在建立 HDFS 位置時指定 QOP 設定來加密資料。QOP 組態包括資料傳輸保護和遠端程序呼叫 (RPC) 保護的設定。

DataSync 支援下列 Kerberos 加密類型:

  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

您也可以使用透明資料加密 (TDE) 設定為靜態加密 HDFS 叢集。使用簡單身份驗證時, DataSync 讀取和寫入啟用 TDE 的叢集。如果您使用的是 DataSync 若要將資料複製到啟用 TDE 的叢集,請先在 HDFS 叢集上設定加密區域。 DataSync 不建立加密區域。

注意

在建立 HDFS 位置之前,請先驗證代理程式與 Hadoop 叢集之間的網路連線。測試對中列出的 TCP 連接埠的存取 連線至自我管理儲存裝置的網路需求 資料表。若要測試本機代理程式和 Hadoop 叢集之間的存取權,請依照中的程序執行測試儲存系統的連線

建立 HDFS 位置

  1. 開啟AWS DataSync主控台https://console.aws.amazon.com/datasync/

  2. Locations (位置) 頁面上,選擇 Create location (建立位置)

  3. 對於位置類型,選擇Hadoop 分散式檔案系統 (HDFS)。您可以稍後將此位置設定為來源或目的地。

  4. 適用於代理程式中,從可用代理程式清單中選擇要使用的一或多個代理程式。代理程式會連線至 HDFS 叢集,以安全地在 HDFS 叢集之間傳輸資料, DataSync。

  5. 適用於NameNode,提供 HDFS 叢集的網域名稱或 IP 地址 NameNode。

  6. 適用於資料夾,輸入 HDFS 叢集上的資料夾 DataSync 將用於資料傳輸。當該位置被用作任務的來源時, DataSync 複製提供資料夾中的檔案。當您的位置被用作任務的目的地時, DataSync 將所有檔案寫入提供的資料夾。

  7. 若要設定區塊大小或者複寫係數,選擇其他設定。預設區塊大小為 128 MiB,且任何提供的區塊大小必須是 512 位元組的倍數。預設複寫係數為三 DataNodes 將數據傳輸到 HDFS 集群時。

  8. 在 中安全性」區段中,選擇身份驗證類型在 HDFS 叢集上使用。

    • 簡便:請提供使用者具有 HDFS 叢集的讀取和寫入許可。選擇性地提供 HDFS 叢集的金鑰管理伺服器 (KMS) 的 URI。

    • Kerberos:提供 KerberosPrincipal可存取您的 HDFS 叢集。接下來,提供KeyTab 文件包含所提供的 Kerberos 主體。然後,提供Kerberos 設定檔。最後,在中指定傳輸中保護的加密類型RPC 保護資料傳輸保護下拉式清單。

  9. (選用)標籤是協助您管理、篩選和搜尋位置的索引鍵/值組。新增標籤是選用的。建議您使用標籤來為資源命名。

  10. 完成後,選擇建立位置

不支援的 HDFS 功能

HDFS 的以下功能目前不支援 DataSync:

  • 使用 Kerberos 驗證時的透明資料加密 (TDE)

  • 設定多個 NameNodes

  • 通過 HTTP(HTTP)的 Hadoop 高清

  • 存取控制清單 (ACL)

  • HDFS 擴展屬性(擴展)