教學課程:從 Amazon S3 載入資料 - Amazon Redshift

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

教學課程:從 Amazon S3 載入資料

本教學將從頭到尾引導您完成從 Amazon S3 儲存貯體中的資料檔案將資料載入 Amazon Redshift 資料庫資料表的過程。

在此教學課程中,您將執行下列操作:

  • 下載使用逗點分隔值 (CSV)、字元分隔或固定寬度格式的資料檔案。

  • 建立 Amazon S3 儲存貯體,然後上傳資料檔案至該儲存貯體。

  • 啟動 Amazon Redshift 叢集並建立資料庫資料表。

  • 使用 COPY 命令從 Amazon S3 上的資料檔案載入資料表。

  • 對載入錯誤進行故障診斷,並修改 COPY 命令來更正錯誤。

預估時間:60 分鐘

估計費用:叢集每小時 $1.00

必要條件

您需要以下的事前準備:

  • 用於啟動 Amazon Redshift 集群並在 Amazon S3 中創建存儲桶的 AWS 帳戶。

  • 用於從 Amazon S3 載入測試資料的 AWS 登入資料 (IAM 角色)。如果您需要新的 IAM 角色,請前往建立 IAM 角色

  • SQL 用戶端,例如 Amazon Redshift 主控台查詢編輯器。

本教學課程設計為可獨立進行。除了本教學課程之外,我們也建議您完成下列教學課程,以便更全面地了解如何設計和使用 Amazon Redshift 資料庫:

概觀

您可以使用 INSERT 命令或 COPY 命令將資料新增至您的 Amazon Redshift 資料表。以 Amazon Redshift 資料倉儲的規模和速度,COPY 命令比 INSERT 命令快許多倍且更有效率。

COPY 命令會使用 Amazon Redshift 大量平行處理 (MPP) 架構,從多個資料來源平行讀取和載入資料。您可以從 Amazon S3、Amazon EMR 或任何可透過 Secure Shell (SSH) 連線存取遠端主機上的資料檔案進行載入。或者,您可以直接從 Amazon DynamoDB 資料表載入。

在本教學中,您會使用 COPY 命令從 Amazon S3 載入資料。在此運用的許多原則也適合用於從其他資料來源載入。

若要進一步了解 COPY 命令的使用,請參閱以下資源:

步驟