資料如何從串流服務流向 Redshift 改善效能的資料剖析最佳實務串流擷取行為和資料類型

將擷取串流到具體化視觀表

本主題說明如何使用具體化視觀表快速存取串流資料。

串流擷取提供從 Amazon Kinesis Data Streams 或 Amazon Managed Streaming for Apache Kafka 到 Amazon Redshift 佈建或 Amazon Redshift Serverless 資料庫的低延遲、高速資料擷取。資料會落在針對目的設定的 Redshift 具體化檢視中。這會導致快速存取外部資料。串流擷取可縮短資料存取時間並降低儲存成本。您可以使用 SQL 命令的小型集合，為 Amazon Redshift 叢集或 Amazon Redshift Serverless 工作群組進行設定。設定之後，每個具體化視觀表重新整理都可以每秒擷取數百 MB 的資料。

資料如何從串流服務流向 Redshift

它有助於了解串流擷取的運作方式，以及流程中使用的資料庫物件。資料直接從資料串流提供者流向 Amazon Redshift 佈建叢集或 Amazon Redshift Serverless 工作群組。沒有臨時登陸區域，例如 Amazon S3 儲存貯體。佈建的叢集或工作群組是串流取用者。在 Redshift 資料庫中，從串流讀取的資料會落在具體化視觀表中。資料會在送達時進行處理。例如，可使用 SQL 取用 JSON 值並映射至具體化視觀表的資料欄。重新整理具體化視觀表時，Redshift 會使用配置的 Kinesis 資料碎片或 Kafka 分割區中的資料，直到視觀表與串流保持最新狀態為止。

Amazon Redshift 串流擷取的使用案例涉及持續產生的資料，且必須在從原始伺服器開始的短時間內或延遲內進行處理。這通常稱為近乎即時的分析。來源可以包括 IT 裝置、系統遙測裝置，以及來自忙碌網站或應用程式的點擊串流資料。

改善效能的資料剖析最佳實務

當您設定串流擷取時，剖析傳入資料的方式有一些選項。實務可能包括在資料送達時執行商業邏輯或格式化。我們建議採用下列最佳實務，以避免錯誤或資料遺失。這些衍生自內部測試，並協助客戶進行故障診斷組態和剖析問題。

從串流資料擷取值 – 如果您在具體化檢視定義中使用 JSON_EXTRACT_PATH_TEXT 函數來剖析或分割串流的 JSON，這可能會大幅影響效能和延遲。為了說明，針對使用 JSON_EXTRACT_PATH_TEXT 擷取的每個資料欄，會重新剖析傳入的 JSON。之後，會進行資料類型轉換、篩選和商業邏輯計算。例如，這表示如果您從 JSON 資料擷取 10 個資料欄，每個 JSON 記錄會剖析 10 次，其中包括額外的邏輯。這會導致較高的擷取延遲。我們建議的替代方法是使用 JSON_PARSE 函數，將 JSON 記錄轉換為 Redshift 的 SUPER 資料類型。串流資料登陸具體化視觀表後，請使用 PartiQL 從 JSON 資料的 SUPER 表示法中擷取個別字串。如需詳細資訊，請參閱查詢半結構化資料。

此外，請注意，JSON_EXTRACT_PATH_TEXT 的資料大小上限為 64KB。因此，如果任何 JSON 記錄大於 64KB，則使用 JSON_EXTRACT_PATH_TEXT 處理它會導致錯誤。
將 Amazon Kinesis Data Streams 串流或 Amazon MSK 主題映射至多個具體化視觀表 – 我們不建議建立多個具體化視觀表，以從單一串流或主題擷取資料。這是因為每個具體化檢視都會為 Kafka 主題中的 Kinesis Data Streams 串流或分割區中的每個碎片建立取用者。這可能會導致調節或超過串流或主題的輸送量。它也可能導致成本提高，因為您多次擷取相同的資料。當您設定串流擷取時，我們建議您為每個串流或主題建立一個具體化檢視。

如果您的使用案例要求您從一個 KDS 串流或 MSK 主題將資料擷取到多個具體化視觀表，請參閱AWS 大數據部落格，特別是在執行此操作之前，使用 Amazon Redshift 串流擷取搭配 Amazon MSK 實作near-real-time分析的最佳實務。

串流擷取行為和資料類型

下表說明各種資料類型的技術行為詳細資訊和大小限制。我們建議您先熟悉這些內容，再設定具體化檢視以進行串流擷取。

功能或行為	描述
Kafka 主題長度限制	Kafka 主題的名稱不得超過 128 個字元 *不包括引號)。如需詳細資訊，請參閱名稱和識別碼。
具體化視觀表的累加式重新整理和 JOIN	具體化視觀表必須是可以增量維護的。Kinesis 或 Amazon MSK 無法完整重新計算，因為預設情況下不會保留過去 24 小時或 7 天的串流或主題歷史記錄。您可以在 Kinesis 或 Amazon MSK 中設定較長的資料保留期間。但是，這可能會導致更多的維護和成本。此外，在 Kinesis 串流或 Amazon MSK 主題上建立的具體化視觀表目前不支援 JOIN。在串流或主題上建立具體化視觀表之後，您可以建立另一個具體化視觀表，將串流具體化視觀表結合至其他具體化視觀表、資料表或檢視。如需詳細資訊，請參閱 REFRESH MATERIALIZED VIEW。
記錄剖析	Amazon Redshift 串流擷取不支援剖析由 inesis Producer Library 彙總的記錄 (KPL 關鍵概念 - 彙總)。彙總記錄會被擷取，但會儲存為二進制協定緩衝區資料。(如需詳細資訊，請參閱協定緩衝區)。視您將資料推送至 Kinesis 的方式而定，您可能需要關閉此功能。
Kafka 標頭中的重複值	來自 Amazon MSK、Confluent 或 Apache Kafka 之 Kafka 主題的 Amazon Redshift 串流消費者用戶端不支援 Kafka 主題標頭中的重複值。
解壓縮	`VARBYTE` 不支援解壓縮。因此，包含壓縮資料的記錄無法在 Redshift 中查詢。將資料新增至 Kinesis 串流或 Amazon MSK 主題之前，請先解壓縮資料。
記錄大小上限	Amazon Redshift 可以從 Kinesis 或 Amazon MSK 擷取的任何記錄大小上限為 16，777，216 位元組 (16 MiB)，這是 Amazon Redshift 中 VARBYTE 資料類型支援的大小上限。根據預設，在 Kinesis 資料串流或 Amazon MSK 主題上建立的 Amazon Redshift 串流具體化檢視，會將資料欄的大小分別設定為 1，048，576 位元組 (1 MiB) 和 16，777，216 位元組 (16 MiB)。注意 1MiB 是可放入 Kinesis 資料串流的任何記錄的目前大小上限。如需 Kinesis 大小限制的詳細資訊，請參閱《Amazon Kinesis Data Streams 開發人員指南》中的配額和限制。
錯誤記錄	每當記錄因為資料大小超過上限而無法擷取到 Redshift 時，就會略過該記錄。在這種情況下，具體化視觀表重新整理仍然會成功，並且每個錯誤記錄的區段都會寫入 SYS_STREAM_SCAN_ERRORS 系統表。但不會略過商務邏輯所產生的錯誤，例如計算中的錯誤或類型轉換所產生的錯誤。在將邏輯新增至具體化檢視定義之前，請仔細測試邏輯。
Amazon MSK Multi-VPC 私有連線	Redshift 串流擷取目前不支援 Amazon MSK 多 VPC 私有連線。或者，您可以使用 VPC 對等互連來連接 VPCsAWS Transit Gateway，或透過中央中樞來連接 VPCs 和內部部署網路。這些都可以讓 Redshift 與 Amazon MSK 叢集或另一個 VPC 中的 Amazon MSK Serverless 通訊。
自動重新整理用量和啟用	具體化視觀表或視觀表的自動重新整理查詢會被視為任何其他使用者工作負載。自動重新整理會在資料到達時從串流載入資料。您可以針對為串流擷取建立的具體化視觀表明確開啟自動重新整理。若要這樣做，請在具體化視觀表定義中指定 `AUTO REFRESH`。預設為手動重新整理。若要為現有具體化視觀表指定自動重新整理以進行串流擷取，您可以執行 `ALTER MATERIALIZED VIEW` 以將其開啟。如需詳細資訊，請參閱 CREATE MATERIALIZED VIEW 或 ALTER MATERIALIZED VIEW。
串流擷取和 Amazon Redshift Serverless	適用於佈建叢集上 Amazon Redshift 串流擷取的設定和組態指示，也適用於 Amazon Redshift Serverless 上的串流擷取。請務必指定必要的 RPUs 層級，以支援具有自動重新整理和其他工作負載的串流擷取。如需詳細資訊，請參閱 Amazon Redshift Serverless 的計費。
Amazon Redshift 節點位於與 Amazon MSK 叢集不同的可用區域中	當您設定串流擷取時，如果啟用 Amazon MSK 的機架意識，Amazon Redshift 會嘗試連線到相同可用區域中的 Amazon MSK 叢集。如果所有節點都位於與 Amazon Redshift 叢集不同的可用區域，則可能會產生跨可用區域資料傳輸成本。若要避免這種情況，請在與 Redshift 佈建叢集或工作群組相同的可用區域中保留至少一個 Amazon MSK 代理程式叢集節點。
重新整理開始位置	建立具體化檢視後，其初始重新整理會從 Kinesis 串流`TRIM_HORIZON`的開始，或從 Amazon MSK 主題的位移 0 開始。
資料格式	支援的資料格式僅限於可以從轉換的資料格式`VARBYTE`。如需詳細資訊，請參閱VARBYTE 類型及VARBYTE 運算子。
將記錄附加至資料表	您可以執行 `ALTER TABLE APPEND` 從現有的來源具體化檢視將資料列附加至目標資料表。這只有在具體化視觀表設定為串流擷取時才有作用。如需詳細資訊，請參閱 ALTER TABLE APPEND。 `ALTER TABLE APPEND` 在連線至下列任何項目的 Amazon Redshift 串流具體化視觀表上執行時，操作會保留獨佔鎖定： Amazon Kinesis 資料串流 Amazon Managed Streaming for Apache Kafka 主題支援的外部串流，例如 Confluent Cloud Kafka 主題
執行 TRUNCATE 或刪除	您可以使用下列方式，從用於串流擷取的具體化檢視中移除記錄： `TRUNCATE` – 這會刪除針對串流擷取所設定的具體化檢視中的所有資料列。其不會執行資料表掃描。如需詳細資訊，請參閱 TRUNCATE。 `DELETE` – 這會刪除針對串流擷取所設定的具體化檢視中的所有資料列。如需詳細資訊，請參閱 DELETE。 `TRUNCATE` 在連線至下列任何項目的 Amazon Redshift 串流具體化視觀表上執行時，和 `DELETE`操作會保留獨佔鎖定： Amazon Kinesis 資料串流 Amazon Managed Streaming for Apache Kafka 主題支援的外部串流，例如 Confluent Cloud Kafka 主題
非小寫識別符	在 Amazon Managed Streaming for Apache Kafka 主題或包含非小寫識別符的 Kinesis Data Streams 上建立串流具體化視觀表時，自動重新整理可能會失敗。若要解決此問題，請執行下列動作之一：使用手動重新整理，並將 `enable_case_sensitive_identifier` 參數設定為 `true` 在資料庫或叢集層級`true`將 `enable_case_sensitive_identifier` 設定為以啟用自動重新整理注意 `enable_case_sensitive_identifier` 在使用者層級設定不足以自動重新整理，但適用於手動重新整理。如需區分大小寫識別符的詳細資訊，請參閱 enable_case_sensitive_identifier。
冪等性	Amazon Redshift 保證從串流來源擷取資料時，每個記錄只會處理一次。此保證適用於兩種來源類型：Amazon Kinesis （使用串流、碎片和序號識別符）和 Apache Kafka （使用主題、分割區和偏移識別符），包括 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 和 Confluent Cloud。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

在具體化視觀表中使用使用者定義函數 (UDF)

開始使用 Amazon Kinesis Data Streams 中的串流擷取

將擷取串流到具體化視觀表

資料如何從串流服務流向 Redshift

改善效能的資料剖析最佳實務

串流擷取行為和資料類型

注意

注意