教學課程:從 Amazon S3 載入資料 - Amazon Redshift

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

教學課程:從 Amazon S3 載入資料

本教學將從頭到尾引導您完成從 Amazon S3 S3 儲存貯體中的資料檔案將資料載入 Amazon Redshift 資料表的過程。

在此教學課程中,您將執行下列操作:

  • 下載使用逗點分隔值 (CSV)、字元分隔或固定寬度格式的資料檔案。

  • 建立 Amazon S3 儲存貯體,然後上傳資料檔案至該儲存貯體。

  • 啟動 Amazon Redshift 叢集並建立資料庫資料表。

  • 使用 COPY 命令從 Amazon S3 上的資料檔案載入資料表。

  • 對載入錯誤進行故障診斷,並修改 COPY 命令來更正錯誤。

預估時間:60 分鐘

估計費用:叢集每小時 $1.00

先決條件

您需要以下的事前準備:

  • 同時AWS帳户以啟動 Amazon Redshift 叢集,和在 Amazon S3 中建立儲存貯體。

  • 您的AWS憑證(IAM 角色)從 Amazon S3 載入測試資料。如果您需要新的 IAM 角色,請轉到建立 IAM 角色

  • SQL 用户端,例如 Amazon Redshift 控制台查詢編輯器。

本教學課程設計為可獨立進行。除了本教學課程之外,我們也建議您完成下列教學課程,以便更全面地瞭解如何設計和使用 Amazon Redshift 資料庫:

概觀

您可以使用 INSERT 命令或 COPY 命令將資料新增至您的 Amazon Redshift 資料表。以 Amazon Redshift 資料倉儲的規模和速度,COPY 命令比 INSERT 命令快許多倍且更有效率。

COPY 命令會使用 Amazon Redshift 大量 parallel 處理 (MPP) 架構,從多個資料來源 parallel 讀取和載入資料。您可以從 Amazon S3、Amazon EMR 或任何可透過 Shell (SSH) 連線存取遠端主機上的資料檔案進行載入。或者,您可以直接從 Amazon DynamoDB 資料表載入。

在本教學課程中,您會使用 COPY 命令從 Amazon S3 載入資料。在此運用的許多原則也適合用於從其他資料來源載入。

若要進一步了解 COPY 命令的使用,請參閱以下資源:

步驟