操作說明AWSDataSync 運作 - AWS DataSync

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

操作說明AWSDataSync 運作

在本節中,您可以找到要素、術語以及 DataSync 運作方式的資訊。

AWSDataSync 架構

此架構圖表顯示 DataSync 如何在現場部署 (自我管理) 儲存系統和AWS儲存服務以及雲端儲存系統和AWS儲存服務。

如需所有 DataSync 支援的來源和目的地端點的清單,請參閱使用位置

在自我管理的儲存區和AWS

下圖顯示 DataSync 架構的高階檢視,用於在自我管理的儲存體和AWS 服務。

資料傳輸AWS儲存服務

下表提供 DataSync 架構的高階檢視,用於在AWS服務內相同AWS 帳戶。此架構適用於區域內和跨區域傳輸。

重要

當您使用 DataSync 將檔案或物件複製AWS 區域,您需要支付在區域之間的資料傳輸費用。這是從您的來源地區到目的地區的資料傳輸 OUT 計費。如需詳細資訊,請參閱「」資料傳輸定價

使用部署在區域中的 DataSync EC2 代理程式進行資料傳輸

您可以使用 DataSync 在AWS 服務在不同的AWS 帳戶,或在自我管理的檔案系統之間AWS和 Amazon S3,Amazon EC2 法是將AWS 區域。如需詳細資訊,請參閱 使 DataSync 署於AWS 區域

要素和術語

DataSync 的要素包括下列要素:

  • 代理程式 — 用於讀取資料或寫入資料至自我管理位置的虛擬機器 (VM)。代理程式在AWS儲存區服務位於相同AWS 帳戶。

  • 位置 — 用於資料傳輸的任何來源或目標位置,例如 Amazon S3、Amazon EFS、FSx for Windows File Server 的 Amazon FSx for Lustre、網路檔案系統 (NFS)、伺服器訊息區塊 (SMB)、Hadoop 分散式檔案系統 (HDFS) 或自我管理的物件儲存。

  • 任務 — 來源位置和目標位置,以及定義資料傳輸方式的組態。任務一律會將資料從來源傳輸到目的地。組態可以包含工作排程、頻寬限制等選項。任務是資料傳輸的完整定義。

  • 任務執行 — 任務的個別執行,包括的資訊如開始時間、結束時間、寫入的位元組和狀態。

Agent

同時代理人是您擁有的虛擬機器,用於從自我管理的儲存系統讀取或寫入資料。代理程式可以部署在 VMware ESXi、KVM、微軟 Hyper-V 虛擬化管理程序上,也可以作為 Amazon EC2 執行個體啟動。您使用AWSDataSync 主控台或 API 來設定和啟用代理程式。啟用程序會為您的代理程式 VM 與您的AWS 帳戶。如需代理程式的資訊,請參閱 使用代理程式

正常運作的代理程式狀態為線上。如果代理程式無法與AWS,它會轉換為離線狀態。這種轉換的原因可能是網路磁碟分割、防火牆設定錯誤,以及使代理程式 VM 無法連線至AWS。關閉的代理程式狀態也會顯示為離線

Location

位置為任務的端點。每個工作都有兩個位置 — 一個來源位置和一個目的地位置。AWSDataSync 支援下列位置類型:

  • 網路檔案系統 (NFS)

  • 伺服器訊息區塊 (SMB)

  • Hadoop 分散式檔案系統 (HDFS)

  • 內部部署 (自我管理) 物件儲存

  • Amazon EFS

  • Amazon FSx for Windows File Server

  • Amazon FSx for Lustre

  • Amazon S3

如需詳細資訊,請參閱 使用位置

Task

任務包括兩個位置 (來源和目的地),以及將檔案從一個位置傳輸至另一個位置的組態。組態設定可包括的選項有如何處理中繼資料、已刪除檔案以及許可。任務是資料傳輸的完整定義。

任務執行

一個任務執行為任務的個別執行,會顯示如開始時間、結束時間、傳輸檔案數量、狀態等資訊。

任務執行有五個轉換階段和兩個結束狀態,如下圖所示。這些階段和狀態為:

  • 佇列— 此階段包含將使用相同代理程式執行的工作執行排入佇列。

  • 啟動— 在此階段期間,任務執行會初始化。

  • 準備— 在此階段期間,DataSync 會計算哪些檔案需要傳輸。

  • 轉移— 在此階段,DataSync 會將資料傳輸至AWS。

  • 驗證— 在此選用階段期間,DataSync 會執行完整的資料和中繼資料完整性驗證。這個階段只會發生在VerifyMode選項會在組態期間啟用。

  • 成功或者錯誤— 工作完成時,DataSync 會根據工作是否成功,將工作設定為其中一個終端機狀態。

如果VerifyMode選項未啟用任務組態中,終端機狀態設定之後轉移階段。否則會在驗證階段。兩個結束狀態為:

  • 成功

  • ERROR (錯誤)

如需這些階段和狀態的詳細資訊,請參閱 了解任務執行狀態

DataSync 如何傳輸檔案

任務開始時,會經歷三種階段:啟動準備轉移,以及驗證。在 中啟動階段,DataSync 初始化任務執行。在 中準備階段,DataSync 會檢查來源和目的地檔案系統,判斷要同步哪些檔案。做法是以遞迴的方式掃描來源和目的地檔案系統上檔案的內容和中繼資料,找尋差異。

DataSync 處理所花費的時間準備階段取決於來源和目的地檔案系統中的檔案數量。這也取決於這些檔案系統的效能,通常需要幾分鐘至幾小時。如需詳細資訊,請參閱 開始任務

掃描完成且差異計算完成後,DataSync 會轉換到轉移階段。此時,DataSync 開始將檔案和中繼資料從來源檔案系統傳輸到目的地。DataSync 會將變更複製到包含來源與目的地之間不同的內容或中繼資料的檔案。您可以通過縮小複製的文件篩選資料,或將 DataSync 設定為不會覆寫目的地中已存在的檔案

注意

根據預設,對來源儲存區上的中繼資料所做的任何變更,都會將此中繼資料複製到目的地儲存區。

轉移階段完成時,DataSync 會驗證來源和目的地檔案系統之間的一致性。此即 VERIFYING (驗證) 狀態。

DataSync 傳輸資料時,一律會在傳輸期間執行資料完整性檢查。您可以啟用其他驗證來比較傳輸結束時的來源和目的地。這個額外的檢查可以驗證整個資料集,或只驗證作為工作執行一部分傳輸的檔案。對於大多數使用案例,我們建議您僅驗證傳輸的檔案。

操作說明AWSDataSync 驗證資料完整性

AWSDataSync 會於本機計算在來源檔案系統和目的地中每個檔案的檢查總和並加以比較。此外,DataSync 會比較來源和目的地中每個檔案的中繼資料並進行比較。如果在兩者中有任何差異,驗證就會失敗並顯示錯誤代碼,明確指出何處失敗。例如,您會看到的錯誤代碼有 Checksum failureMetadata failureFiles were addedFiles were removed 等。

如需詳細資訊,請參閱「」了解任務建立狀態啟用驗證中的設定任務設定區段。

DataSync 處理開啟和鎖定檔案的方式

一般而言,DataSync 可在毫無限制的情況下傳輸開啟的檔案。

如果檔案已開啟並在傳輸期間進行寫入操作,DataSync 會在驗證階段。此階段會在 DataSync 偵測到來源上的檔案不同於目的地上的檔案時。

如果檔案鎖定且伺服器阻止 DataSync 開啟該檔案,DataSync 會略過檔案不傳輸。DataSync 處理會在轉移階段,並發送驗證錯誤。