從 HDFS 設定AWS DataSync傳輸 - AWS DataSync

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

從 HDFS 設定AWS DataSync傳輸

要從 Hadoop 分散式檔案系統 (HDFS) 傳輸資料,您必須建立AWS DataSync傳輸位置。

存取 HDFS 叢集

若要連線至 HDFS 叢集,請DataSync使用您在 HDFS 叢集附近部署的代理程式。若要深入瞭解DataSync代理程式,請參閱與AWS DataSync代理商合作。DataSync代理程式充當 HDFS 用戶端,並與叢集DataNodes中的NameNodes和通訊。

當您啟動工作時,會DataSync查詢叢集上檔案和資料夾的位置。NameNode如果 HDFS 位置被配置為源,然後從集群DataNodes中DataSync讀取文件和文件夾數據,並將數據複製到目的地。如果 HDFS 位置被配置為目的地,然後DataSync將文件和文件夾從目的地寫入到集群DataNodes中。在執行您的DataSync工作之前,請確認代理程式與 HDFS 叢集的連線。如需詳細資訊,請參閱測試代理程式與儲存系統的連線

身分驗證

連線至 HDFS 叢集時,DataSync支援簡單驗證或 Kerberos 驗證。若要使用簡單驗證,請提供讀取和寫入 HDFS 叢集之權限的使用者名稱。若要使用 Kerberos 驗證,請提供 Kerberos 組態檔案、Kerberos 金鑰資料表 (金鑰索引標籤) 檔案,以及 Kerberos 主要名稱。Kerberos 主體的認證必須位於提供的金鑰索引標籤檔案中。

加密

使用 Kerberos 驗證時,DataSync支援在DataSync代理程式與 HDFS 叢集之間傳輸的資料加密。使用 HDFS 叢集上的保護品質 (QOP) 組態設定,並在建立 HDFS 位置時指定 QOP 設定來加密資料。QOP 組態包括資料傳輸保護和遠端程序呼叫 (RPC) 保護的設定。

DataSync支援下列 Kerberos 加密類型:
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

您也可以使用透明資料加密 (TDE) 設定 HDFS 叢集,以便使用透明資料加密 (TDE)。使用簡單身份驗證時,請對啟用 TDE 的集群進行DataSync讀取和寫入。如果您使用將資料複製DataSync到啟用 TDE 的叢集,請先在 HDFS 叢集上設定加密區域。DataSync不會建立加密區域。

創建您的 HDFS 傳輸位置

設定您可以使用來源進行DataSync移轉的位置。

在您開始之前:請執行下列動作,確認代理程式與 Hadoop 叢集之間的網路連線:

使用控制台創建 HDFS 位置 DataSync
  1. 開啟主AWS DataSync控台,網址為 https://console.aws.amazon.com/datasync/

  2. 在左側導覽窗格中,展開 [資料傳輸],然後選擇 [位] 和 [建立位置]。

  3. 針對位置類型,請選擇 Hadoop 分散式檔案系統 (HDFS)。您可以稍後將此位置設定為來源或目的地。

  4. 對於代理程式,請從可用代理程式清單中選擇一或多個要使用的代理程式。代理程式會連線至 HDFS 叢集,以便在 HDFS 叢集和. DataSync

  5. 對於 NameNode,請提供 HDFS 叢集的主要NameNode叢集的網域名稱或 IP 位址。

  6. 在「資料」中,輸入 HDFS 叢集上DataSync將用於資料傳輸的資料夾。將位置用作工作的來源時,會DataSync複製提供資料夾中的檔案。將您的位置用作工作的目的地時,DataSync會將所有檔案寫入提供的資料夾。

  7. 若要設定區塊大小複製係數,請選擇 [其他設定]。預設區塊大小為 128 MiB,並且提供的任何區塊大小必須是 512 個位元組的倍數。將資料傳輸至 HDFS 叢集DataNodes時,預設複製因數為三。

  8. 在「安全性」區段中,選擇 HDFS 叢集上使用的驗證類型

    • 簡單 — 對於使用,請在 HDFS 叢集上指定具有下列權限的使用者名稱 (視您的使用案例而定):

      • 如果您打算使用此位置作為來源位置,請指定僅具有讀取權限的使用者。

      • 如果您打算將此位置用作目標位置,請指定具有讀取和寫入權限的使用者。

      選擇性地指定 HDFS 叢集金鑰管理伺服器 (KMS) 的 URI。

    • Kerberos — 指定可存取 HDFS 叢集的 Kerberos 主體。接下來,提供包含所提供 Kerberos 主體的KeyTab檔案。然後,提供 Kerberos 組態檔案。最後,在 RPC 保護和資料傳輸防護下拉式清單中指定傳輸中保的加密類型。

  9. (選擇性) 選擇「新增標籤」來標記您的 HDFS 位置。

    標籤是有助於管理、篩選和搜尋地點的鍵值對。建議您為位置建立至少一個名稱標籤。

  10. 選擇 [建立地點]。

不支援的 HDFS 功能

HDFS 目前不支援 HDFS 的功能:DataSync

  • 使用 Kerberos 驗證時的透明資料加密 (TDE)

  • 配置多個 NameNodes

  • 通過 HTTP(HTTP)的 Hadoop 高清

  • POSIX 存取控制清單

  • HDFS 擴展屬性(擴展)