在 AWS Glue 控制台上使用分类器 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS Glue 控制台上使用分类器

分类器确定您的数据架构。您可以编写一个自定义分类器并从 AWS Glue 指向该分类器。

查看分类器

要查看您创建的所有分类器的列表,请点击 https://console.aws.amazon.com/glue/ 打开 AWS Glue 控制台,然后选择 Classifiers (分类器) 选项卡。

列表显示了有关每个分类器的以下属性:

  • 分类器 – 分类器名称。创建分类器时,您必须为其提供名称。

  • 分类 – 由此分类器推断的表的分类类型。

  • 上次更新 – 上次更新此分类器的时间。

管理分类器

控制台中的 ClassifiersAWS Glue (分类器) 列表中,您可以添加、编辑和删除分类器。要查看分类器的详细信息,请在列表中选择分类器名称。详细信息包括您创建分类器时定义的信息。

创建分类器

要在 AWS Glue 控制台中添加分类器,请选择 Add classifier (添加分类器)。在定义分类器时,您需要提供以下项目的值:

  • 分类器名称 – 为您的分类器提供唯一名称。

  • 分类器类型 – 由此分类器推断的表的分类类型。

  • 上次更新 – 上次更新此分类器的时间。

分类器名称

为您的分类器提供唯一名称。

分类器类型

选择要创建的分类器的类型。

根据您选择的分类器类型,为分类器配置以下属性:

Grok
  • 分类。

    描述分类的数据的格式或类型或提供自定义标签。

  • Grok 模式

    此模式用于将您的数据解析为结构化架构。Grok 模式由描述您数据存储格式的命名模式组成。您使用 AWS Glue 提供的已命名内置模式和您编写且包含在 Custom patterns (自定义模式) 字段中的自定义模式编写此 grok 模式。尽管 grok 调试程序结果可能不完全匹配 AWS Glue 中的结果,我们仍建议您使用一些示例数据与 grok 调试程序来尝试您的模式。您可以在 Web 上查找 grok 调试程序。AWS Glue 提供的已命名的内置模式通常可与 Web 上提供的 grok 模式兼容。

    通过以迭代方式添加已命名的模式来构建您的 grok 模式,并在调试程序中检查您的结果。此活动将使您确信,当 AWS Glue 爬网程序运行 grok 模式时会解析您的数据。

  • 自定义模式

    对于 grok 分类器,这些是您编写的 Grok pattern (Grok 模式) 的可选构建块。当内置模式无法解析您的数据时,您可能需要编写自定义模式。这些自定义模式在此字段中定义并在 Grok pattern (Grok 模式) 字段中引用。每个自定义模式在单独的行上定义。和内置模式一样,它包含一个已命名的模式定义,该定义使用正则表达式 (regex) 语法。

    例如,以下是具有名称 MESSAGEPREFIX 后跟要应用于您的数据以确定其是否符合该模式的正则表达式定义。

    MESSAGEPREFIX .*-.*-.*-.*-.*
XML
  • 行标签

    对于 XML 分类器,这是定义 XML 文档中的表行的 XML 标签的名称。键入名称,不带尖括号 < >。名称必须符合标签的 XML 规则。

    有关更多信息,请参阅 编写 XML 自定义分类器

JSON
  • JSON 路径

    对于 JSON 分类器,这是定义正在创建的表的行的对象、数组或值的 JSON 路径。使用 AWS Glue 支持的运算符在点或括号 JSON 语法中键入名称。

    有关更多信息,请参阅编写 JSON 自定义分类器中的运算符列表。

CSV
  • 列分隔符

    单个字符或符号,表示分隔行中每个列条目的内容。从列表中选择分隔符,或选择 Other 来输入自定义分隔符。

  • 引用符号

    单个字符或符号,表示将内容组合为单个列值的内容。必须与列分隔符不同。从列表中选择引用符号,或选择 Other 来输入自定义引用字符。

  • 列标题

    指示有关应如何在 CSV 文件中检测列标题的行为。您可以选择 Has headingsNo headingsDetect headings。如果您的自定义 CSV 文件包含列标题,请输入列标题的逗号分隔列表。

  • 允许具有单列的文件

    要被分类为 CSV,数据必须至少有两列和两行数据。使用此选项处理仅包含一列的文件。

  • 在标识列值之前去除空格

    此选项指定是否在标识列值类型之前去除值。

  • 自定义数据类型

    (可选)- 在逗号分隔列表中输入自定义数据类型。受支持的数据类型有:“BINARY”、“BOOLEAN”、“DATE”、“DECIMAL”、“DOUBLE”、“FLOAT”、“INT”、“LONG”、“SHORT”、“STRING”、“TIMESTAMP”。

  • CSV Serde

    (可选)- 设置用于在分类器中处理 CSV 的 SerDe,该分类器将应用于 Data Catalog。可以选择 Open CSV SerDeLazy Simple SerDeNone。当您想让爬网程序执行检测时,可以指定 None 值。

有关更多信息,请参阅 编写自定义分类器