创建 Kafka 连接 - AWS Glue

创建 Kafka 连接

创建 Kafka 连接时,从下拉菜单中选择 Kafka 将显示要配置的其他设置:

  • Kafka 集群详细信息

  • 身份验证

  • 加密

  • 网络操作

配置 Kafka 集群详细信息

  1. 选择集群位置。可以从 Amazon Managed for Apache Kafka (MSK) 集群或 Customer managed Apache Kafka(客户管理的 Apache Kafka)集群中选择。有关 Amazon Managed Streaming for Apache Kafka 的更多信息,请参阅 Amazon Managed Streaming for Apache Kafka (MSK)

    注意

    Amazon Managed Streaming for Apache Kafka 仅支持 TLS 和 SASL/SCRAM-SHA-512 身份验证方法。

    屏幕截图显示了 Kafka 集群的详细信息部分,其中包含选择群集位置和输入 Kafka 引导服务器 URL 的选项。
  2. 输入 Kafka 引导服务器的 URL。通过用逗号分隔每台服务器,可以输入多个服务器。通过在 URL 末尾附加 :<port number>,包含端口号。

    例如:b-1.vpc-test-2.034a88o.kafka-us-east-1.amazonaws.com:9094

选择身份验证方法

屏幕截图显示了选择 Kafka 身份验证方法的下拉菜单。

AWS Glue 支持用于身份验证的简单身份验证和安全层 (SASL) 框架。SASL 框架支持各种身份验证机制,且 AWS Glue 提供 SCRAM(用户名和密码)、GSSAPI(Kerberos 协议)和 PLAIN (用户名和密码)协议。

从下拉菜单中选择身份验证方法时,可以选择以下客户端身份验证方法:

  • 无 – 不进行身份验证。如果是为进行测试而创建连接,这非常有用。

  • SASL/SCRAM-SHA-512 - 选择此身份验证方法以指定身份验证凭证。有两个可用的选项:

    • 使用 AWS Secrets Manager(推荐)- 如果选择此选项,则可以将凭证存储在 AWS Secrets Manager 中,然后让 AWS Glue 在需要时访问该信息。指定存储 SSL 或 SASL 身份验证凭证的密钥。

      如果身份验证方法是 SASL/SCRAM-SHA-512,则屏幕截图显示了身份验证凭证选项。
    • 直接提供用户名和密码。

  • SASL/GSSAPI (Kerberos) – 如果选择此选项,则可以选择 keytab 文件、krb5.conf 文件的位置,然后输入 Kerberos 主体名称和 Kerberos 服务名称。keytab 文件和 krb5.conf 文件的位置必须位于 Amazon S3 位置。由于 MSK 尚不支持 SASL/GSSAPI,所以此选项仅适用于客户管理的 Apache Kafka 集群。有关更多信息,请参阅 MIT Kerberos 文档:keytab

  • SASL/PLAIN - 选择此身份验证方法以指定身份验证凭证。有两个可用的选项:

    • 使用 AWS Secrets Manager(推荐)- 如果选择此选项,则可以将凭证存储在 AWS Secrets Manager 中,然后让 AWS Glue 在需要时访问该信息。指定存储 SSL 或 SASL 身份验证凭证的密钥。

    • 直接提供用户名和密码。

  • SSL 客户端身份验证 – 如果选择此选项,则可以通过浏览 Amazon S3 来选择 Kafka 客户端密钥库的位置。或者,您可以输入 Kafka 客户端密钥库密码和 Kafka 客户端密钥密码。

如果 SSL 是身份验证方法,屏幕截图显示了加密选项。

配置加密设置

  1. 如果 Kafka 连接需要 SSL 连接,请选中 Require SSL connection(需要 SSL 连接)复选框。请注意,如果无法通过 SSL 连接,则连接将失败。用于加密的 SSL 可以与任何身份验证方法(SASL/SCRAM-SHA-512、SASL/GSSAPI、SASL/PLAIN、SSL 客户端身份验证)一起使用,并且是可选的。

    如果身份验证方法设置为 SSL client authentication(SSL 客户端身份验证),则系统将自动选择并禁用此选项,以防止出现任何更改。

  2. (可选)。选择来自证书颁发机构 (CA) 的私有证书的位置。请注意,证书的位置必须在 S3 位置。选择 Browse(浏览),从连接的 S3 存储桶中选择文件。路径必须采用 s3://bucket/prefix/filename.pem 格式。它必须以文件名和 .pem 扩展名结尾。

  3. 可以选择跳过验证证书颁发机构 (CA) 的证书。选择复选框 Skip validation of certificate from certificate authority (CA) [跳过验证证书颁发机构(CA)的证书]。如果未选中此框,则 AWS Glue 会验证三种算法的证书:

    • SHA256withRSA

    • SHA384withRSA

    • SHA512withRSA

屏幕截图显示了配置加密的选项,包括是否需要 SSL 连接、从证书颁发机构 (CA) 处选择私有证书位置的选项,以及跳过证书颁发机构 (CA) 颁发的证书验证选项。

(可选)网络选项

下面是配置 VPC、子网和安全组的可选步骤。如果您的 AWS Glue 任务需要在 virtual private cloud (VPC) 子网中的 Amazon EC2 实例上运行,必须提供其他特定于 VPC 的配置信息。

  1. 选择包含您的数据源的 virtual private cloud (VPC)。

  2. 选择您的 VPC 所在的子网。

  3. 选择允许访问 VPC 子网中数据存储的一个或多个安全组。安全组与附加到子网的 ENI 相关联。必须为所有 TCP 端口选择至少一个具有自引用入站规则的安全组。

屏幕截图显示了 VPC、子网和安全组的可选网络选项。