在 AWS Glue 中使用 grokLog 格式
AWS Glue 从源中检索数据,并将数据写入以各种数据格式存储和传输的目标。如果您的数据以结构松散的纯文本格式存储或传输,本文档将向您介绍供通过 Grok 模式使用 AWS Glue 中的数据时的可用功能。
AWS Glue 支持使用 Grok 模式。Grok 模式类似于正则表达式捕获组。这些组能识别纯文本文件中的字符序列模式,并为其指定类型和用途。在 AWS Glue 中,其主要用途是读取日志。有关作者对 Grok 的说明,请参阅 Logstash Reference: Grok filter plugin
读取 | 写入 | 流式处理读取 | 对小文件进行分组 | 作业书签 |
---|---|---|---|---|
支持 | 不适用 | 支持 | 支持 | 不支持 |
grokLog 配置参考
您可以将以下 format_options
值与 format="grokLog"
结合使用:
logFormat
– 指定与日志的格式匹配的 Grok 模式。customPatterns
– 指定在此处使用的其他 Grok 模式。MISSING
– 指定用于标识缺失值的信号。默认为'-'
。LineCount
– 指定每个日志记录中的行数。默认值为'1'
,并且目前仅支持单行记录。StrictMode
– 指定是否启用严格模式的布尔值。在严格模式下,读取器不会执行自动类型转换或恢复。默认值为"false"
。