資料處理 - AWS Step Functions

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料處理

隨著資料量的增加,來自日益多樣化的來源,組織發現他們需要快速移動來處理這些資料,以確保他們做出更快、明智的業務決策。若要大規模處理資料,組織需要彈性佈建資源,以管理從行動裝置、應用程式、衛星、行銷和銷售、營運資料存放區、基礎架構等接收到的資訊。

Step Functions 提供成功管理資料處理工作流程所需的可擴充性、可靠性和可用性。您可以使用 Step Functions 來管理數百萬個並行執行,因為它可以水平擴展並提供容錯工作流程。使用平行執行 (例如 Step Functions 的狀態類型),或使用其平行Map狀態類型的動態平行處理作業,更快地處理資料。作為工作流程的一部分,您可以使用Map狀態對靜態資料存放區 (例如 Amazon S3 儲存貯體) 中的物件進行迭代。Step Functions 也可讓您輕鬆重試失敗的執行,或選擇特定的方式來處理錯誤,而不需要管理複雜的程序。

根據您的資料處理需求,Step Functions 會直接與其他資料處理服務整合,AWS例如用AWS Batch於批次處理、用於大數據處理的 Amazon EMR、用AWS Glue於資料準備的 Athena 進行資料分析,以及用AWS Lambda於運算。

客戶使用 Step Functions 完成的資料處理工作流程類型範例包括:

文件,視頻和圖像處理

  • 拍攝一系列視頻文件並將其轉換為其他尺寸或分辨率,這些文件非常適合顯示它們的設備,例如手機,筆記本電腦或電視。

  • 拍攝用戶上傳的大量照片,並將其轉換為縮略圖或各種分辨率圖像,然後可以在用戶的網站上顯示。

  • 擷取半結構化資料 (例如 CSV 檔案),並將其與非結構化資料 (例如發票) 結合使用,以產生每月傳送給業務利害關係人的業務報告。

  • 從衛星收集到的地球觀測數據,將其轉換為彼此一致的格式,然後添加在地球上收集的其他數據源以獲得更多見解。

  • 從各種運輸模式中獲取產品的運輸日誌,並使用蒙特卡羅模擬查找優化,然後將報告發送回依靠您運送貨物的組織和人員。

坐標提取,轉換和加載(ETL)工作:

  • 透過使用的一系列資料準備步驟,將銷售機會記錄與行銷量度資料集結合在一起AWS Glue,並產生可在整個組織中使用的商業智慧報告。

  • 建立、啟動和終止用於大數據處理的 Amazon EMR 叢集。

批次處理和高效能運算 (HPC) 工作負載:

  • 構建基因組學二次分析管道,將原始的整個基因組序列處理為變體調用。將原始文件與參考序列對齊,並使用動態並行性調用指定染色體列表上的變體。

  • 通過使用不同的電氣和化學化合物模擬各種佈局,找到生產下一個移動設備或其他電子設備的效率。透過各種模擬執行大量的工作負載批次處理,以取得最佳設計。