本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Glue 從來源擷取資料,並將資料寫入以各種資料格式存放和傳輸的目標。如果您的資料是以結構鬆散的純文字格式存放或傳輸,本文件會介紹在 AWS Glue 中透過 Grok 模式使用資料的可用功能。
AWS Glue 支援使用 Grok 模式。Grok 模式類似於規則表達式擷取群組。它們辨識純文字檔案中字元序列的模式,並為其提供類型和用途。在 Glue AWS 中,其主要目的是讀取日誌。有關作者對 Grok 的介紹,請參閱 Logstash Reference: Grok filter plugin
讀取 | 寫入 | 串流讀取 | 對小型檔案進行分組 | 任務書籤 |
---|---|---|---|---|
支援 | 不適用 | 支援 | 支援 | 不支援 |
grokLog 組態參考
可以使用下列的 format_options
值搭配 format="grokLog"
:
logFormat
— 指定符合記錄格式的 Grok 模式。customPatterns
— 指定此處使用的其他 Grok 模式。MISSING
— 指定用於識別遺漏值的訊號。預設值為'-'
。LineCount
— 指定各個日誌記錄中的行數。預設為'1'
,目前也只支援單行記錄。StrictMode
— 布林值,指定是否要開啟嚴格模式。在嚴格模式下,讀者不可自動轉換類型或復原。預設值為"false"
。