选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

步骤 3:配置安全设置

聚焦模式
步骤 3:配置安全设置 - AWS Glue
IAM 角色

爬网程序将担任此角色。它必须具有类似于 AWS 托管式策略 AWSGlueServiceRole 的权限。对于 Amazon S3 和 DynamoDB 源,它还必须具有访问数据存储的权限。如果爬网程序读取使用 AWS Key Management Service(AWS KMS)加密的 Amazon S3 数据,则该角色必须具有 AWS KMS 密钥的解密权限。

对于 Amazon S3 数据存储,附加到角色的其他权限类似于以下内容:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::bucket/object*" ] } ] }

对于 Amazon DynamoDB 数据存储,附加到角色的其他权限类似于以下内容:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:region:account-id:table/table-name*" ] } ] }

要添加自己的 JDBC 驱动程序,需要添加其他权限。

  • 授予以下作业操作的权限:CreateJobDeleteJobGetJobGetJobRunStartJobRun

  • 授予 Amazon S3 操作的权限:s3:DeleteObjectss3:GetObjects3:ListBuckets3:PutObject

    注意

    如果禁用 Amazon S3 存储桶策略,则不需要使用 s3:ListBucket

  • 在 Amazon S3 策略中授予服务主体访问存储桶/文件夹的权限。

Amazon S3 策略示例:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::bucket-name/driver-parent-folder/driver.jar", "arn:aws:s3:::bucket-name" ] } ] }

AWS Glue创建以下文件夹(_crawler_glue_job_crawler,级别与 Amazon S3 存储桶中的 JDBC 驱动程序相同)。例如,如果驱动程序路径为 <s3-path/driver_folder/driver.jar>,则将创建以下文件夹(如果这些文件夹尚不存在):

  • <s3-path/driver_folder/_crawler>

  • <s3-path/driver_folder/_glue_job_crawler>

(可选)您可以向爬网程序添加安全配置来指定静态加密选项。

有关更多信息,请参阅步骤 2:为 AWS Glue 创建 IAM 角色适用于 AWS Glue 的 Identity and Access Management

Lake Formation 配置 — 可选

允许爬网程序使用 Lake Formation 凭证爬取数据存储。

选中 Use Lake Formation credentials for crawling S3 data source(使用 Lake Formation 凭证爬取 S3 数据源)将允许爬网程序使用 Lake Formation 凭证爬取数据源。如果数据源属于另一个账户,则必须提供注册的账户 ID。否则,爬网程序将仅爬取与该账户关联的数据源。仅适用于 Amazon S3 和数据目录数据源。

安全配置 — 可选

设置包括安全配置。有关更多信息,请参阅下列内容:

注意

在爬网程序上设置安全配置后,您可以进行更改,但不能将其移除。要降低爬虫的安全性级别,请在配置中将安全功能显式设置为 DISABLED,或者创建一个新的爬网程序。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。