使用 AWS Glue 從 Amazon S3 載入資料到 Amazon Redshift。 - AWS Prescriptive Guidance

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 AWS Glue 從 Amazon S3 載入資料到 Amazon Redshift。

由沙虎維傑 (AWS) 創建

建立者:AWS

環境:PoC 或試驗

技術:儲存與備份;分析

AWS 服務:Amazon Redshift; AWS Glue; Amazon S3

Summary

此模式描述使用 AWS Glue 從 Amazon Simple Storage Service (Amazon S3) 儲存貯體到 Amazon Redshift 叢集的資料遷移程序。

先決條件和限制

先決條件

  • 作用中的 AWS 帳戶

  • 具有逗號分隔值 (CSV) 檔案和正確權限的 S3 來源儲存貯體 

  • Amazon Redshift 叢集

Architecture

來源技術堆疊

  • 帶有 CSV 文件的 S3 存儲桶

目標技術堆疊

  • Amazon Redshift 叢集

資料遷移架構

Tools

  • AWS Glue-AWS Glue是完全受管的擷取、轉換和載入 (ETL) 服務,可讓客戶輕鬆準備和載入資料以進行分析。它的設計目的是簡化移動和轉換資料集以進行分析的工作,並提供必要的排程、警示和觸發功能,做為更廣泛的資料處理工作流程的一部分。

Epics

任務描述所需技能
驗證目標資料庫版本和引擎。

DBA
建立來源和目標資料庫的輸出安全群組。

SysAdmin
任務描述所需技能
啟動 Amazon Redshift 叢集。

SysAdmin, DBA
在 Amazon Redshift 叢集中建立遷移的資料庫使用者。

SysAdmin, DBA
建立 Amazon Redshift 叢集的 AWS Identity 和存取管理 (IAM) 服務角色,並授予 S3 儲存貯體資料來源的讀取存取權限。

SysAdmin, DBA
將先前的步驟中的角色附加到目標資料庫。

SysAdmin, DBA
檢閱目標資料庫選項、參數和 Amazon Redshift 工作負載管理 (WLM) 設定。

SysAdmin, DBA
任務描述所需技能
在 AWS Glue 中新增資料庫。

SysAdmin
在新建立的 AWS Glue 資料庫中新增資料表。

SysAdmin
在參數中,提供 Amazon S3 資料來源位置和表格欄詳細資訊。

SysAdmin
在 AWS Glue 中建立新任務。

SysAdmin
在參數中,選擇具有 Amazon S3 資料來源權限的 IAM 服務角色。

SysAdmin
對於資料來源,請選擇 Amazon S3 資料來源位置。

SysAdmin
對於目標,選擇「在您的數據目標中創建表格表格」選項。針對資料存放區,選擇 Java 資料庫連接 (JDBC)。

SysAdmin
選取 Amazon Redshift 叢集的連線端點,並提供 Amazon Redshift 資料庫名稱。

SysAdmin
在 AWS Glue 中儲存並執行工作。

SysAdmin
任務描述所需技能
資料載入後或使用案例完成後,在 AWS Glue 中刪除工作。

DBA、SysAdmin、委任者