本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
教學課程:從 Amazon S3 載入資料
在本教學中,您將逐步逐步完成將資料從 Amazon S3 儲存貯體中的資料檔案從頭到尾載入 Amazon Redshift 資料庫表格的程序。
在此教學課程中,您將執行下列操作:
-
下載使用逗點分隔值 (CSV)、字元分隔或固定寬度格式的資料檔案。
-
建立 Amazon S3 儲存貯體,然後將資料檔案上傳至儲存貯體。
-
啟動 Amazon Redshift 叢集並建立資料庫表格。
-
使用 COPY 命令從 Amazon S3 上的資料檔案載入資料表。
-
對載入錯誤進行故障診斷,並修改 COPY 命令來更正錯誤。
預估時間:60 分鐘
估計費用:叢集每小時 $1.00
先決條件
您需要以下的事前準備:
-
用於啟動 Amazon Redshift 集群並在 Amazon S3 中創建存儲桶的AWS帳戶。
-
用於從 Amazon S3 載入測試資料的AWS登入資料 (IAM 角色)。如果您需要新的 IAM 角色,請前往建立 IAM 角色。
-
SQL 用戶端,例如 Amazon Redshift 主控台查詢編輯器。
本教學課程設計為可獨立進行。除了本教學課程之外,我們還建議您完成下列教學課程,以更完整地瞭解如何設計和使用 Amazon Redshift 資料庫:
-
Amazon Redshift 入門指南會演練建立 Amazon Redshift 叢集和載入範例資料的程序。
概要
您可以使用插入命令或使用 COPY 命令,將資料新增至 Amazon Redshift 表格。在 Amazon Redshift 資料倉儲的規模和速度上,COPY 命令的速度比 INSERT 命令快上許多倍且更有效率。
COPY 命令使用 Amazon Redshift 大規模 parallel 處理 (MPP) 架構,從多個資料來源 parallel 讀取和載入資料。您可以從 Amazon S3、Amazon EMR 或透過安全殼層 (SSH) 連線存取的任何遠端主機上的資料檔案載入。或者,您可以直接從 Amazon DynamoDB 資料表載入。
在本教學課程中,您要使用 COPY 命令,從 Amazon S3 載入資料。在此運用的許多原則也適合用於從其他資料來源載入。
若要進一步了解 COPY 命令的使用,請參閱以下資源: