CopyActivity - AWS Data Pipeline

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

CopyActivity

將資料從一個位置複製到另一個位置。 CopyActivity支持S3 DataNode和作SqlDataNode為輸入和輸出,並通常執行複製操作 record-by-record。不過,當符合下列所有條件時,會向 Amazon S3 CopyActivity 提供高效能的 Amazon S3 副本:

  • 輸入和輸出為 S3 DataNodes

  • 輸入及輸出的 dataFormat 欄位皆相同。

若您提供壓縮資料檔案做為輸入,而並未在 S3 資料節點上使用 compression 欄位指出,則 CopyActivity 可能會失敗。在這種情況下,CopyActivity 將無法正確地偵測記錄結尾字元,導致操作失敗。此外,CopyActivity支援從目錄複製到另一個目錄,並將檔案複製到目錄,但 record-by-record 複製目錄到檔案時會發生複製。最後,CopyActivity不支援複製多部分 Amazon S3 檔案。

CopyActivity 的 CSV 支援具有特定限制。當您使用 S3 DataNode 做為的輸入時CopyActivity,您只能將 CSV 資料檔案格式的 Unix/Linux 變體用於 Amazon S3 輸入和輸出欄位。Unix/Linux 變體需要下列項目:

  • 分隔符號必須是 "," (逗號) 字元。

  • 記錄不會加上引號。

  • 預設逸出字元是 ASCII 值 92 (反斜線)。

  • 記錄結尾識別符是 ASCII 值 10 (或 "\n")。

基於 Windows 的系統通常使用不同的 end-of-record 字符序列:回車符和換行一起(ASCII 值 13 和 ASCII 值 10)。您必須使用額外的機制來配合此差異,例如使用一個預先複製指令碼來修改輸入資料,確保 CopyActivity 能正確地偵測記錄結尾;否則,CopyActivity 會不斷失敗。

使用 CopyActivity 從 PostgreSQL RDS 物件匯出到 TSV 資料格式時,預設 NULL 字元是 \n。

範例

以下為此物件類型的範例。此物件會參考三個您在相同管道定義檔案中定義的其他物件。CopyPeriodSchedule 物件,InputDataOutputData 則是資料節點物件。

{ "id" : "S3ToS3Copy", "type" : "CopyActivity", "schedule" : { "ref" : "CopyPeriod" }, "input" : { "ref" : "InputData" }, "output" : { "ref" : "OutputData" }, "runsOn" : { "ref" : "MyEc2Resource" } }

語法

物件呼叫欄位 描述 槽類型
schedule 在排程間隔的執行期間會呼叫此物件。使用者必須指定另一個物件的排程參考,設定此物件的相依性執行順序。使用者可以在物件上明確設定排程來滿足此需求,例如指定「schedule」: {"ref」: DefaultSchedule "}。在大部分的情況下,建議您將排程參考放在預設的管道物件,讓所有物件都繼承該排程。或者,如果管道有排程的樹狀目錄 (主排程內還有排程),使用者可以建立有排程參考的父物件。如需範例選用排程組態的詳細資訊,請參閱https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html 參考對象,例如「時間表」:{「ref」:」myScheduleId「}
必要的群組 (下列其中之一為必要) 描述 槽類型
runsOn 執行活動或命令的可運算資源。例如,Amazon EC2 執行個體或 Amazon EMR 叢集。 引用對象,例如「runsOn」:{「參考」:myResourceId「}
workerGroup 工作者群組。這是用於路由任務。如果您提供 runsOn 值,且 workerGroup 存在,則會忽略 workerGroup。 字串

選用欄位 描述 槽類型
attemptStatus 遠端活動最新回報的狀態。 字串
attemptTimeout 遠端工作完成的逾時。如果設定,則系統可能會重試未在設定開始時間內完成的遠端活動。 期間
dependsOn 指定與另一個可執行物件的相依性。 引用對象,例如「依賴信息」:{「參考」:myActivityId「}
failureAndRerun模式 描述相依性故障或重新執行時的消費者節點行為 列舉
input 輸入資料來源。 引用對象,例如「輸入」:{「參考」:「myDataNodeID」}
lateAfterTimeout 管線開始後,物件必須在其中完成的經過時間。僅當明細表類型未設定為時,才會觸發此選項ondemand 期間
maxActiveInstances 同時作用中的元件執行個體數目上限。重新執行不計入作用中的執行個體數量。 Integer
maximumRetries 故障時嘗試重試的次數上限 Integer
onFail 目前物件發生故障時要執行的動作。 引用對象,例如「onFail」:{「參考」:myActionId「}
onLateAction 某個物件尚未排程或仍未完成時,應該觸發的動作。 引用對象,例如 onLateAction「「:{" ref」:」myActionId「}
onSuccess 目前物件成功時要執行的動作。 引用對象,例如「onSuccess」:{「裁判」:myActionId「}
output 輸出資料來源。 引用對象,例如「輸出」:{「ref」:「myDataNodeID」}
parent 目前物件的父系,其插槽會被繼承。 引用對象,例如「父」:{「ref」:「myBaseObjectID」}
pipelineLogUri 用於上傳管道日誌的 S3 URI(例如 's3://BucketName/密鑰/')。 字串
precondition 選擇是否定義先決條件。在所有先決條件滿足前,資料節點不會標示為"READY"。 引用對象,例如「前提條件」:{「ref」:」myPreconditionId「}
reportProgressTimeout 遠端工作連續呼叫 reportProgress 的逾時。如果設定,則不回報指定時段進度的遠端活動,可能會視為已停滯而重試。 期間
retryDelay 兩次重試嘗試之間的逾時持續時間。 期間
scheduleType 排程類型可讓您指定管道定義的物件應該排程在間隔開頭還是間隔結尾。時間序列樣式排程表示執行個體排程在每個間隔的結尾,而 Cron 樣式排程表示執行個體排程在每個間隔的開頭。隨需排程可讓您在每次啟用時執行一次管道。這表示您不必複製或重新建立管道,然後再執行一次。若您使用隨需排程,則必須在預設物件中指定此排程,且其必須是針對管道中物件指定的唯一 scheduleType。若要使用隨選管線,只要呼叫每次後續執行的 ActivatePipeline 作業即可。值為:Cron、ondemand 和 timeseries。 列舉

執行時間欄位 描述 槽類型
@activeInstances 目前已排程的作用中執行個體物件清單。 引用對象,例如「活動實例」:{「ref」:「myRunnableObjectId」}
@actualEndTime 此物件執行完成的時間。 DateTime
@actualStartTime 此物件執行開始的時間。 DateTime
cancellationReason 若此物件已取消,會提供 cancellationReason。 字串
@cascadeFailedOn 物件失敗所在相依性鏈的描述。 參考物件,例如 cascadeFailedOn "" ": {" ref」: "myRunnableObjectId"}
emrStepLog 只在 EMR 活動嘗試時才可使用的 EMR 步驟日誌 字串
errorId 若此物件失敗,會提供 errorId。 字串
errorMessage 若此物件失敗,會提供 errorMessage。 字串
errorStackTrace 如果此物件失敗,則為錯誤堆疊追蹤。 字串
@finishedTime 此物件完成其執行的時間。 DateTime
hadoopJobLog 嘗試 EMR 型活動可用的 Hadoop 任務日誌。 字串
@healthStatus 反映已達終止狀態之最後一個物件執行個體成功或失敗的物件運作狀態。 字串
@healthStatusFromInstanceId 已達終止狀態之最後一個執行個體物件的 ID。 字串
@ healthStatusUpdated 時間 上次更新運作狀態的時間。 DateTime
hostname 選取任務嘗試之用戶端的主機名稱。 字串
@lastDeactivatedTime 此物件最後停用的時間。 DateTime
@ latestCompletedRun 時間 執行完成最近一次執行的時間。 DateTime
@latestRunTime 執行排程最近一次執行的時間。 DateTime
@nextRunTime 下次要排程執行的時間。 DateTime
reportProgressTime 遠端活動最近報告進度的時間。 DateTime
@scheduledEndTime 物件的排程結束時間 DateTime
@scheduledStartTime 物件的排程開始時間 DateTime
@status 此物件的狀態。 字串
@version 建立物件使用的管道版本。 字串
@waitingOn 此物件等待之相依性清單的描述。 引用對象,例如「等待」:{「參考」:「myRunnableObjectID」}

系統欄位 描述 槽類型
@error 描述格式錯誤物件的錯誤 字串
@pipelineId 此物件所屬管道的 ID 字串
@sphere 物件範圍代表其在生命週期中的位置:Component 物件會引發執行 Attempt 物件的 Instance 物件 字串

另請參閱