本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用控制台创建分类器 AWS Glue
分类器确定您的数据架构。您可以编写一个自定义分类器并从 AWS Glue指向该分类器。
创建分类器
要在 AWS Glue 控制台中添加分类器,请选择 Add classifier (添加分类器)。在定义分类器时,您需要提供以下项目的值:
-
分类器名称 – 为您的分类器提供唯一名称。
-
分类器类型 – 由此分类器推断的表的分类类型。
-
上次更新 – 上次更新此分类器的时间。
- 分类器名称
-
为您的分类器提供唯一名称。
- 分类器类型
-
选择要创建的分类器的类型。
根据您选择的分类器类型,为分类器配置以下属性:
- Grok
-
-
分类。
描述分类的数据的格式或类型或提供自定义标签。
-
Grok 模式
此模式用于将您的数据解析为结构化架构。Grok 模式由描述您数据存储格式的命名模式组成。您使用 AWS Glue 提供的已命名内置模式和您编写且包含在 Custom patterns (自定义模式) 字段中的自定义模式编写此 grok 模式。尽管 grok 调试程序结果可能不完全匹配 AWS Glue 中的结果,我们仍建议您使用一些示例数据与 grok 调试程序来尝试您的模式。您可以在 Web 上查找 grok 调试程序。AWS Glue 提供的已命名的内置模式通常可与 Web 上提供的 grok 模式兼容。
通过以迭代方式添加已命名的模式来构建您的 grok 模式,并在调试程序中检查您的结果。此活动将使您确信,当 AWS Glue 爬网程序运行 grok 模式时会解析您的数据。
-
自定义模式
对于 grok 分类器,这些是您编写的 Grok pattern (Grok 模式) 的可选构建块。当内置模式无法解析您的数据时,您可能需要编写自定义模式。这些自定义模式在此字段中定义并在 Grok pattern (Grok 模式) 字段中引用。每个自定义模式在单独的行上定义。和内置模式一样,它包含一个已命名的模式定义,该定义使用正则表达式 (regex) 语法。
例如,以下是具有名称 MESSAGEPREFIX
后跟要应用于您的数据以确定其是否符合该模式的正则表达式定义。
MESSAGEPREFIX .*-.*-.*-.*-.*
- XML
-
- JSON
-
- CSV
-
-
列分隔符
单个字符或符号,表示分隔行中每个列条目的内容。从列表中选择分隔符,或选择 Other
来输入自定义分隔符。
-
引用符号
单个字符或符号,表示将内容组合为单个列值的内容。必须与列分隔符不同。从列表中选择引用符号,或选择 Other
来输入自定义引用字符。
-
列标题
表示应如何在CSV文件中检测列标题的行为。您可以选择 Has headings
、No
headings
或 Detect headings
。如果您的自定义CSV文件有列标题,请输入以逗号分隔的列标题列表。
-
允许具有单列的文件
要归类为CSV,数据必须至少包含两列和两行数据。使用此选项处理仅包含一列的文件。
-
在标识列值之前去除空格
此选项指定是否在标识列值类型之前去除值。
-
自定义数据类型
(可选)- 在逗号分隔列表中输入自定义数据类型。支持的数据类型有:“BINARY”、“”、“”、“BOOLEAN”、“DATE”、“DECIMAL”、“”、“DOUBLE”、“FLOAT”、“INT”、“”、“LONG”、“SHORT”、“STRING”、“TIMESTAMP”。
-
CSVSerde
(可选)-A SerDe 用于CSV在分类器中进行处理,该分类器将应用于数据目录。可以选择 Open CSV SerDe
、Lazy Simple SerDe
或 None
。当您想让爬网程序执行检测时,可以指定 None
值。
有关更多信息,请参阅 为不同的数据格式编写自定义分类器。
查看分类器
要查看您创建的所有分类器的列表,请打开AWS Glue控制台 https://console.aws.amazon.com/glue/,然后选择分类器选项卡。
列表显示了有关每个分类器的以下属性:
管理分类器
从 控制台中的 ClassifiersAWS Glue (分类器) 列表中,您可以添加、编辑和删除分类器。要查看分类器的详细信息,请在列表中选择分类器名称。详细信息包括您创建分类器时定义的信息。