使用 Google 雲端儲存設定AWS DataSync移轉作業 - AWS DataSync

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Google 雲端儲存設定AWS DataSync移轉作業

以下教學說明如AWS DataSync何使用將物件從 Google 雲端儲存貯體遷移到 Amazon S3 儲存貯體。

概要

由於DataSync與 Google 雲端儲存 XML API 整合,因此您可以將物件複製到 Amazon S3,而無需撰寫程式碼。其運作方式取決於您部署DataSync代理程式以促進傳輸的位置。

Agent in Google Cloud
  1. 您可以在 GCP 環境中部署DataSync代理程式。

  2. 代理程式會使用雜湊訊息驗證碼 (HMAC) 金鑰來讀取 Google Cloud Storage age age age age age age 區。

  3. 您的 Google 雲端儲存貯體中的物件會透過 TLS 1.2 安全地移入公用端點。AWS 雲端

  4. DataSync服務會將資料寫入 S3 儲存貯體。

下圖說明了移轉。


                            DataSync傳輸範例顯示物件資料如何從 GCP 儲存貯體移至 S3 儲存貯體。首先,DataSync代理程式會部署在您的 GCP 環境中。然後,DataSync代理程式會讀取 GCP 儲存貯體。資料會透過公有端點安全地移入AWS,並將物件DataSync寫入所使用AWS 區域位置的 S3 儲存貯體DataSync。
Agent in your VPC
  1. 您可以在AWS環境中的虛擬私有雲端 (VPC) 中部署DataSync代理程式。

  2. 代理程式會使用雜湊訊息驗證碼 (HMAC) 金鑰來讀取 Google Cloud Storage age age age age age age 區。

  3. 您的 Google 雲端儲存貯體中的物件會使用私有虛擬私人雲端端點,安全地透過 TLS 1.2 移入。AWS 雲端

  4. DataSync服務會將資料寫入 S3 儲存貯體。

下圖說明了移轉。


                            DataSync傳輸範例顯示物件資料如何從 GCP 儲存貯體移至 S3 儲存貯體。首先,DataSync代理程式部署在中的 VPC 中AWS。然後,DataSync代理程式會讀取 GCP 儲存貯體。資料會透過 VPC 端點安全地移入AWS,並將物件DataSync寫入與 VPC 相AWS 區域同的 S3 儲存貯體。

成本

與此遷移相關的費用包括:

  • 執行 Google 計算引擎虛擬機器 (VM) 執行個體 (如果您在 GCP 中部署DataSync代理程式)

  • 執行 Amazon EC2 執行個體 (如果您在其中的 VPC 中部署DataSync代理程式AWS)

  • 通過使用傳輸數據 DataSync

  • 將數據傳輸出谷歌雲存儲

  • Amazon S3 中存放資料

先決條件

開始之前,請執行以下操作:

步驟 1:為 Google Cloud Storage age 區建立 HMAC 金鑰

DataSync使用與您的 Google 服務帳戶相關聯的 HMAC 密鑰進行身份驗證並讀取您要從中傳輸數據的存儲桶。如需如何建立 HMAC 金鑰的詳細指示,請參閱 Google 雲端儲存空間說明文件。)

若要建立 HMAC 金鑰
  1. 為您的谷歌服務帳戶創建一個 HMAC 密鑰。

  2. 確保您的 Google 服務帳戶至少具有Storage Object Viewer權限。

  3. 請將 HMAC 金鑰的存取 ID 和私密保存在安全之處。

    稍後您將需要這些項目來設定DataSync來源位置。

步驟 2:設定網路

此移轉的網路需求取決於您要如何部署DataSync代理程式。

如果您想在 GCP 中託管DataSync代理程式,請將網路設定為允許透過公有端點進行DataSync傳輸

如果要在中託管代理程式AWS,則需要具有介面端點的 VPC。DataSync使用 VPC 端點來促進傳輸。

設定 VPC 端點的網路
  1. 如果您沒有 VPC,請在 S3 儲存貯體中AWS 區域建立 VPC。

  2. 為您的 VPC 建立私有子網路。

  3. 使用為建立 VPC 端點AWS PrivateLink。DataSync

  4. 將您的網路設定為允許透過 VPC 端點進行DataSync傳輸

    若要進行必要的組態變更,您可以修改已經與 VPC 端點建立關聯的安全群組。如需詳細資訊,請參閱 Amazon VPC 使用者指南中的使用安全群組控制到資源的流量

步驟 3:建立DataSync代理程式

您需要能夠存取和讀取您的 GCP 儲存貯體的專DataSync員。

在這個案例中,DataSync代理程式會在您的 GCP 環境中執行。

在您開始之前安裝谷歌雲 CLI

若要建立 GCP 的代理程式
  1. 請在以下位置開啟AWS DataSync主控台。 https://console.aws.amazon.com/datasync/

  2. 選擇左側導覽窗格中,選擇代理程式,然後選擇建立代理程式

  3. 對於虛擬機器管理程序,請選擇 VMware ESXi,然後選擇下載映像以下載包含代理程式的.zip檔案。

  4. 開啟 終端機。執行下列命令來解壓縮影像:

    unzip AWS-DataSync-Agent-VMWare.zip
  5. 執行下列命令,以開頭擷取代理程式.ova檔案的內容:aws-datasync

    tar -xvf aws-datasync-2.0.1655755445.1-x86_64.xfs.gpt.ova
  6. 透過執行下列 GCP CLI 命令,將代理程式的.vmdk檔案匯入 GCP:

    gcloud compute images import aws-datasync-2-test \ --source-file INCOMPLETE-aws-datasync-2.0.1655755445.1-x86_64.xfs.gpt-disk1.vmdk \ --os centos-7
    注意

    匯入.vmdk檔案最多可能需要兩個小時。

  7. 為剛匯入的代理程式映像檔建立並啟動 VM 執行個體。

    執行個體需要您的代理程式的下列設定。如需如何建立執行個體的詳細指示,請參閱 Google 雲端運算引擎說明文件。)

    • 機器類型請選擇下列其中一個:

      • E2-標準 8 — 對於傳輸多達 2000 萬個文件的DataSync任務。

      • E2-標準 16 — 對於傳輸超過 2000 萬個文件的DataSync任務。

    • 如需開機磁碟設定,請前往「自訂映像檔」區段。然後選擇您剛匯入的DataSync代理程式映像。

    • 在服務帳戶設定中,選擇您的 Google 服務帳戶 (與您在步驟 1 中使用的帳戶相同)。

    • 對於防火牆設定,請選擇允許 HTTP (通訊埠 80) 流量的選項。

      若要啟用DataSync代理程式,必須在代理程式上開啟連接埠 80。連接埠不需公開存取。啟動後,DataSync關閉連接埠。

  8. VM 執行個體執行之後,請記下其公有 IP 地址。

    您需要此 IP 位址才能啟用代理程式。

  9. 回到 DataSync 主控台。在您下載代理程式映像的「建立代理程式」畫面上,執行下列動作以啟動代理程式:

    • 對於端點類型,請選擇公用服務端點選項(例如,美國東部俄亥俄州的公共服務端點)。

    • 對於「啟用金鑰」,請選擇「自動從代理程式取得啟用金鑰」。

    • 針對代理程式位址,輸入您剛建立之代理程式 VM 執行個體的公用 IP 位址。

    • 選擇 [取得金鑰]。

  10. 為您的代理程式命名,然後選擇 [建立代理程式]。

您的代理已上線,並準備好移動資料。

在此案例中,代理程式會在已經建立關聯之 VPC 中,以 Amazon EC2 執行個體執行個體執行個體形式執行AWS 帳戶。

在您開始之前:設定AWS Command Line Interface (AWS CLI)

建立 VPC 的代理程式
  1. 開啟 終端機。請務必將您的設定AWS CLI檔設定為使用與 S3 儲存貯體相關聯的帳戶。

  2. 複製以下命令。取代vpc-region為 VPC 所AWS 區域在的位置 (例如,us-east-1)。

    aws ssm get-parameter --name /aws/service/datasync/ami --region vpc-region
  3. 執行命令。在輸出中,記下"Value"屬性。

    此值為您指定之區域中的DataSync Amazon Machine Image (AMI) ID。例如,AMI 識別碼可能看起來像ami-1234567890abcdef0

  4. 複製以下網址。同樣地,vpc-region用 VPC 所AWS 區域在的位置取代。然後,請ami-id替換為您在上一個步驟中記下的 AMI ID。

    https://console.aws.amazon.com/ec2/v2/home?region=vpc-region#LaunchInstanceWizard:ami=ami-id
  5. 將 URL 貼到瀏覽器。

    顯示器中的亞馬遜 EC2 執行個體啟動頁AWS Management Console面。

  6. 針對執行個體類型,選擇其中一個適用於DataSync代理程式的 Amazon EC2 執行個體。

  7. key pair,選擇現有的金鑰對,或建立新的金鑰對。

  8. 對於網路設定,請選擇您要在其中部署代理程式的 VPC 和子網路。

  9. 選擇 Launch Instance (啟動執行個體)

  10. 執行 Amazon EC2 執行個體後,請選擇您的 VPC 端點

  11. 激活您的代理

步驟 4:為您的 GCP 儲存貯體建立DataSync來源位置

若要為您的 GCP 儲存貯體設定DataSync位置,您需要在步驟 1 中建立的 HMAC 金鑰的存取 ID 和密碼。

建立來DataSync源位置的步驟
  1. 請在以下位置開啟AWS DataSync主控台。 https://console.aws.amazon.com/datasync/

  2. 在左側導覽窗格中,展開 [資料傳輸],然後選擇 [位] 和 [建立位置]。

  3. 對於位置類型,選擇物件儲存

  4. 針對「代理程式」,選擇您在步驟 3 中建立的代理程式。

  5. 對於「伺服器」,輸入storage.googleapis.com

  6. 在「值區名稱」中,輸入您的 GCP 儲存貯體名稱。

  7. 展開 Additional settings (其他設定)。針對「伺服器通訊協定」,選擇 針對「伺服器連接埠」,請選擇 443

  8. 向下捲動至「驗證」區段。確定已選取 [需要認證] 核取方塊,然後執行下列動作:

    • 存取金鑰中,輸入 HMAC 金鑰的存取 ID。

    • 在「秘密金鑰」中,輸入 HMAC 金鑰的秘密。

  9. 選擇 [建立地點]。

步驟 5:為 S3 儲存貯體建立DataSync目標位置

您需要一個DataSync位置來存放資料的最終位置。

建立DataSync目標位置的步驟
  1. 請在以下位置開啟AWS DataSync主控台。 https://console.aws.amazon.com/datasync/

  2. 在左側導覽窗格中,展開 [資料傳輸],然後選擇 [位] 和 [建立位置]。

  3. S3 儲存貯體建立DataSync位置。

    如果您在 VPC 中部署了DataSync代理程式,本教學會假設 S3 儲存貯體與您的 VPC 和DataSync代理程式位於AWS 區域相同的位置。

步驟 6:建立並啟動DataSync任務

設定來源和目的地位置後,您就可以開始將資料移入AWS。

若要建立並啟動DataSync工作
  1. 請在以下位置開啟AWS DataSync主控台。 https://console.aws.amazon.com/datasync/

  2. 在左側導覽窗格中,展開 [資料傳輸],然後選擇 [工作],然後選擇 [建立工作]。

  3. 設定來源位置頁面,執行下列動作:

    1. 選擇 [選擇現有位置]。

    2. 選擇您在步驟 4 中建立的來源位置,然後選擇「下一步」。

  4. 設定目的地位置頁面,執行下列動作:

    1. 選擇 [選擇現有位置]。

    2. 選擇您在步驟 5 中建立的目的地位置,然後選擇「下一步」。

  5. 設定頁面,執行下列動作:

    1. 在 [資料傳輸組態] 下,展開 [其他設定] 並清除 [複製物件標籤] 核取方塊。

      重要

      由於使用 Amazon S3 APIDataSync 與 Google 雲端儲存進行通訊,因此如果您嘗試複製物件標籤,可能會造成DataSync任務失敗的限制。

    2. 設定您想要的任何其他工作設定,然後選擇 [下一步]。

  6. 在 [檢] 頁面上檢閱您的設定,然後選擇 [建立工作]。

  7. 在工作的詳細資訊頁面,選擇開始,然後選擇下列其中一個:

    • 若要在不修改的情況下執行工作,請選擇以預設值啟動

    • 若要在執行工作之前修改工作,請選擇 [以覆寫選項開始]。

任務完成後,您會在 S3 儲存貯體中看到來自 Google 雲端儲存貯體的物件。