AWS Glue 的文档历史记录 - AWS 连接词

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue 的文档历史记录

变更说明日期

支持 AWS Glue ETL 作业的作业运行排队

当作业由于服务配额的原因而无法立即运行时,您可以打开作业运行排队以便稍后运行作业。有关更多信息,请参阅 Defining job properties for Spark jobs

2024 年 9 月 3 日

更新了策略更改

记录了对 AwsGlueSessionUserRestrictedNotebookPolicyAwsGlueSessionUserRestrictedNotebookServiceRole 策略的更改,这些更改对于支持将 tag-on-create 用于具有所有者标签键的会话是必需的。有关更多信息,请参阅 AWS Glue 对 AWS 托管策略的更新

2024 年 8 月 30 日

异常检测和动态规则现已正式发布

AWS Glue 数据质量自动监测功能利用机器学习算法,从过去的趋势中学习,然后预测未来值以检测异常。动态规则允许您提供动态阈值。有关更多信息,请参阅 Optimizing query performance for Iceberg tables

2024 年 8 月 7 日

更新了策略更改

记录了对 AwsGlueSessionUserRestrictedPolicyAwsGlueSessionUserRestrictedServiceRole 策略的更改,这些更改对于支持将 tag-on-create 用于具有所有者标签键的会话是必需的。有关更多信息,请参阅 AWS Glue 对 AWS 托管策略的更新

2024 年 8 月 5 日

为 Iceberg 表生成列统计数据的功能现已正式发布

AWS Glue 支持计算和更新 Iceberg 表中每列的不重复值(NDV)数量。有关更多信息,请参阅 AWS Glue 数据质量自动监测功能中的异常检测动态规则

2024 年 7 月 9 日

对 AWS Glue 使用情况配置文件的支持

管理员可为账户中不同类别的用户(例如开发人员、测试人员和产品团队)创建 AWS Glue 使用情况配置文件。这种灵活性使管理员能够对每类用户应用不同的用量和成本控制。有关更多信息,请参阅 Setting up AWS Glue usage profiles

2024 年 6 月 18 日

对适用于 AWS Glue for Spark 的 Salesforce 连接器的支持

添加了有关新的 AWS Glue Salesforce 连接器的信息。您可以利用该功能在 AWS Glue 4.0 及更高版本中使用 AWS Glue for Spark 从 Salesforce 中读取数据和向其中写入数据。有关更多信息,请参阅 Connecting to Salesforce

2024 年 5 月 22 日

AWS Glue 中的 Amazon Q 数据集成(GA)

AWS Glue 中的 Amazon Q 数据集成是 AWS Glue 的一项新的生成式人工智能功能,它使数据工程师和 ETL 开发人员能够使用自然语言构建数据集成作业。工程师和开发人员可以请求 Q 来创作作业、解决问题并回答有关 AWS Glue 和数据集成的问题。有关更多信息,请参阅 AWS Glue 中的 Amazon Q 数据集成。此功能包括对 AwsGlueSessionUserRestrictedPolicyAwsGlueSessionUserRestrictedNotebookServiceRoleAwsGlueSessionUserRestrictedServiceRole AWS 托管策略的更新。有关更多信息,请参阅 AWS Glue 对 AWS 托管策略的更新

2024 年 4 月 30 日

AWS Glue 中的 Amazon Q 数据集成(预览版)

AWS Glue 中的 Amazon Q 数据集成是 AWS Glue 的一项新的生成式人工智能功能,它使数据工程师和 ETL 开发人员能够使用自然语言构建数据集成作业。工程师和开发人员可以请求 Q 来创作作业、解决问题并回答有关 AWS Glue 和数据集成的问题。有关更多信息,请参阅 AWS Glue 中的 Amazon Q 数据集成。此功能包括对 AwsGlueSessionUserRestrictedNotebookPolicy AWS 托管策略的更新。有关更多信息,请参阅对 AWS 托管策略的 AWS Glue 更新

2024 年 1 月 30 日

AWS Glue 流式处理文档更新

增加了一个新的章节,包含了有关 AWS Glue 流式处理的新内容和调整后内容。这些内容介绍了流式处理如何与 AWS Glue 配合使用、实时数据处理的特征以及如何监控流式处理作业。有关更多信息,请参阅 AWS Glue 流式处理

2023 年 12 月 27 日

支持使用精细敏感数据检测

借助检测敏感数据转换功能,可以检测、遮蔽或移除您定义的或由 AWS Glue 预定义的实体。您还可以借助精细操作对每个实体应用特定的操作。有关更多信息,请参阅使用精细敏感数据检测

2023 年 11 月 26 日

支持使用 AWS Glue 可观测性指标监测作业

使用 AWS Glue 可观测性指标可深入了解 AWS Glue 内部发生的情况,以便 Apache Spark 作业可以改进对问题的分类和分析。有关更多信息,请参阅使用 AWS Glue 可观测性指标进行监控

2023 年 11 月 26 日

支持 AWS Glue 数据质量自动监测功能中的异常检测

AWS Glue 数据质量异常检测将机器学习(ML)算法应用于一段时间内的数据统计信息,以检测难以通过规则检测到的异常模式,和隐藏的数据质量问题。有关更多信息,请参阅 AWS Glue 数据质量自动监测功能中的异常检测

2023 年 11 月 26 日

更新为默认的 Spark 用户界面日志记录行为

生成 Spark UI 日志的 Spark 作业现在将使用不同的文件名模式进行写入,以支持 AWS Glue 控制台中的 Spark UI。这不会改变 CloudWatch 日志行为。您可以通过更新任务配置恢复原来的行为。有关更多信息,请参阅使用 Apache Spark Web UI 监控作业

2023 年 11 月 17 日

支持 AWS Glue for Spark 中的新数据源

AWS Glue 内现在原生支持与 Amazon OpenSearch Service、Azure SQL、Azure Cosmos for NoSQL、SAP HANA Teradata Vantage 和 Vertica 的连接。此外,现在可以在 AWS Glue Studio 可视化编辑器中使用与这些数据来源以及 MongoDB 的连接。有关更多信息,请参阅 AWS Glue for Spark 中的 ETL 的连接类型和选项了解关于 AWS Glue for Spark 支持的相关信息;请参阅添加 AWS Glue 连接了解在 AWS Glue Studio 可视化编辑器中使用的相关信息。

2023 年 11 月 17 日

支持生成列统计信息

无需设置其他数据管道,即可为 Parquet、ORC、JSON、ION、CSV 和 XML 等数据格式的 AWS Glue Data Catalog 表计算列级别的统计数据。有关更多信息,请参阅使用列统计信息

2023 年 11 月 16 日

支持 Iceberg 表的数据压缩

为提高 AWS 分析服务(例如 Amazon Athena 和 Amazon EMR)和 AWS Glue ETL 任务的读取性能,Data Catalog 为 Data Catalog 中的 Iceberg 表提供了托管式压缩功能(一种将小 Amazon S3 对象压缩成较大对象的进程)。有关更多信息,请参阅优化 Iceberg 表

2023 年 11 月 13 日

更新了作业运行等待行为

在某些情况下,标准 Spark 和 Python Shell 作业运行现在将过渡到 WAITING,而不是立即变为 FAILED。有关更多信息,请参阅 AWS Glue 作业运行状态

2023 年 11 月 8 日

AWS Glue Studio 用户指南已合并到 AWS Glue 开发者指南中

AWS Glue Studio 用户指南已移至开发者指南,用于为 AWS Glue Studio、AWS Glue 控制台和 AWS Glue Studio 编程访问创建单一的统一用户指南。

2023 年 10 月 25 日

对 AWSGlueServiceNotebookRole AWS 托管策略做出的更新

添加了有关对 AWSGlueServiceNotebookRole AWS 托管策略做出的次要更新信息。有关更多信息,请参阅 AWS Glue 对 AWS 托管式策略做出的更新

2023 年 10 月 9 日

AWS Glue Studio 支持五种新的内置转换

AWS Glue Studio 支持以下五种新的内置转换:记录匹配、移除空行、解析 JSON 列、提取 JSON 路径和正则表达式提取器。有关更多信息,请参阅 Editing AWS Glue managed data transform nodes

2023 年 8 月 11 日

对 AWSGlueServiceRole AWS 托管式策略做出的更新

添加了有关对 AWSGlueServiceRole AWS 托管式策略做出的次要更新信息。有关更多信息,请参阅 AWS Glue 对 AWS 托管式策略做出的更新

2023 年 8 月 4 日

支持爬取 Apache Hudi 表

添加了有关使用 AWS Glue 在 Amazon S3 存储桶中爬取 Hudi 表以及将 Hudi 表注册到 AWS Glue Data Catalog 的信息。有关更多信息,请参阅 Which data stores can I crawl?Crawler properties

2023 年 7 月 21 日

对 AWSGlueConsoleFullAccess AWS 托管式策略做出的更新

添加了有关对 AWSGlueConsoleFullAccess AWS 托管式策略做出的次要更新信息。有关更多信息,请参阅 AWS Glue 对 AWS 托管式策略做出的更新

2023 年 7 月 14 日

支持爬取 Apache Iceberg 表

添加了有关使用 AWS Glue 在 Amazon S3 存储桶中爬取 Iceberg 表以及将 Iceberg 表注册到 AWS Glue Data Catalog 的信息。有关更多信息,请参阅 Which data stores can I crawl?Crawler properties

2023 年 7 月 7 日

支持 AWS Glue with Ray

添加了有关 AWS Glue with Ray 的信息,这是一款可以支持 AWS Glue 作业的新引擎。重组现有的 AWS Glue with Spark 内容以消除歧义。

2023 年 5 月 30 日

支持 AWS Glue Data Quality(预览版)

AWS Glue Data Quality 现已上市。AWS GlueData Quality 可帮助您评估和监控数据质量。有关如何在 Data Catalog 中使用 AWS Glue Data Quality 的信息,请参阅 AWS Glue Data Quality。要了解 AWS Glue Data Quality for AWS Glue Studio,请参阅 Evaluating data quality with AWS Glue Studio

2023 年 5 月 24 日

为 Apache Spark 作业支持更大的工作线程类型

现在支持使用适用于 Apache Spark 作业的 G.4XG.8X 工作线程类型。对于工作线程类型适合包含要求最高的转换、聚合、联接和查询的作业。有关更多信息,请参阅在 AWS Glue 中添加任务

2023 年 5 月 8 日

支持在爬取表时创建分区索引

添加了有关爬网程序如何支持为爬网程序检测到的表创建分区索引的信息。有关更多信息,请参阅 Setting the partition index crawler configuration option

2023 年 4 月 24 日

支持资源使用量指标

添加了有关在 Amazon CloudWatch 中查看服务资源使用量和配置警报的信息。有关更多信息,请参阅 AWS Glue resource monitoring

2023 年 4 月 7 日

对 AWSGlueConsoleFullAccess AWS 托管式策略做出的更新

添加了有关对 AWSGlueConsoleFullAccess AWS 托管式策略做出的次要更新信息。有关更多信息,请参阅 AWS Glue 对 AWS 托管式策略做出的更新

2023 年 3 月 28 日

添加了将 AWS Glue 与 AWS SDK 一起使用的指南和示例

AWS Glue 开发者指南有两个新章节,提供帮助您将 AWS Glue 与 AWS SDK 一起使用的信息。如需了解更多信息,请参阅将 AWS Glue 与 AWS SDK 一起使用AWS Glue 使用 AWS SDK 的代码示例

2023 年 2 月 23 日

使用 AWS Glue 更新 IAM 文档

重新组织并添加了有关将 IAM 与 AWS Glue 一起使用的信息 有关更多信息,请参阅 AWS Glue 的身份和访问权限管理

2023 年 2 月 15 日

AWS Glue 版本 4.0 支持运行流式处理 ETL 作业

添加了有关在 Glue 版本 4.0 中支持运行流式处理 ETL 作业的信息,以及连接到 Kafka 集群或适用于 Apache Kafka 集群的 Amazon Managed Streaming 和 Amazon Kinesis Data Streams 的新选项。有关更多信息,请参阅在 AWS Glue 中添加流式处理 ETL 作业AWS Glue 中的 ETL 连接类型和选项

2023 年 2 月 8 日

支持爬取 MongoDB Atlas 数据来源

添加了有关使用 AWS Glue 爬取 MongoDB Atlas 数据来源的信息。有关更多信息,请参阅我可以爬取哪些数据存储?MongoDB 和 MongoDB Atlas 连接属性,以及使用 MongoDB 或 MongoDB Atlas 连接

2023 年 2 月 6 日

支持使用本地 Delta Lake 连接器爬取 Delta Lake 表

增加了有关使用本地 Delta Lake 连接器并使用 AWS Glue 爬取 Delta Lake 表的信息。此功能允许您使用 AWS 查询引擎直接查询 Delta 事务日志,并使用诸如时空旅行和 ACID 保证之类的功能,还可以将来自 Amazon S3 事务文件的 Delta Lake 元数据同步到数据目录中,以启用对 Lake Formation 中的查询的列权限。有关更多信息,请参阅如何为 Delta Lake 数据存储指定配置选项查询 Delta Lake 表

2022 年 12 月 15 日

支持 AWS Glue Data Quality(预览版)

现在支持 AWS Glue Data Quality(预览版)。AWS Glue使用 AWS Glue 3.0 版本 Data Quality,可帮助您评估和监控数据质量。有关如何在数据目录中使用 AWS Glue Data Quality 的信息,请参阅 AWS Glue Data Quality(预览版)。要了解 AWS Glue Data Quality for AWS Glue Studio,请参阅 Evaluating data quality with AWS Glue Studio

2022 年 11 月 30 日

支持具有新功能和性能改进的全新 Amazon Redshift Spark 连接器

现在支持带有新的 JDBC 驱动程序的新 Amazon Redshift Spark 连接器,该连接器可用于 AWS Glue ETL 任务,用于构建 Apache Spark 应用程序,在 AmazonRedshift 中读取和写入数据,作为数据摄取和转换管道的一部分。有关更多信息,请参阅将数据移入和移出 Amazon Redshift

2022 年 11 月 29 日

支持 AWS Glue 版本 4.0。

添加了有关 AWS Glue 版本 4.0 的支持的信息。功能包括对带有 Apache Hudi、Delta Lake 和 Apache Iceberg 的开放数据湖框架的原生支持,以及对基于 Amazon S3 的 Cloud Shuffle 存储插件(Apache Spark 插件)的原生支持,该插件可使用 Amazon S3 进行随机排序和弹性存储容量。有关更多信息,请参阅 AWS Glue 发布说明将 AWS Glue 任务迁移到 AWS Glue 版本 4.0

2022 年 11 月 28 日

AWS Glue Studio 现在提供自定义视觉转换

自定义视觉转换允许客户在团队之间定义、重用和共享特定于业务的 ETL 逻辑。有关更多信息,请参阅自定义视觉转换

2022 年 11 月 28 日

支持使用 AWS Glue 爬网程序发布 JDBC 数据存储的元数据

现在支持使用 AWS Glue 爬网程序将注释和原始类型等元数据发布到 JDBC 数据存储的数据目录。有关更多信息,请参阅爬网程序在数据目录表上设置的参数爬网程序属性JdbcTarget 结构

2022 年 11 月 18 日

支持爬取 Snowflake 数据存储

现在支持 AWS Glue 用于爬取 Snowflake 表和视图,以及将元数据作为表条目发布到数据目录。对于 Amazon S3 中的 Snowflake 外部表,爬网程序还会爬取外部表的 Amazon S3 位置和文件格式类型,并填充为表参数。有关更多信息,请参阅我可以爬取哪些数据存储?AWS Glue 连接属性和由爬网程序在数据目录表上设置的参数

2022 年 11 月 18 日

支持改进 Spark 应用程序的随机排序管理

现在支持适用于 Apache Spark 的新 Cloud Shuffle 存储插件。有关更多信息,请参阅带有 Amazon S3 的 AWS Glue Spark shuffle 插件适用于 Apache Spark 的 Cloud Shuffle 存储插件

2022 年 11 月 15 日

添加了在加速爬取 Amazon S3 事件通知时对 Data Catalog 目标的支持

除了对 Amazon S3 目标的现有支持外,现在还支持使用 Amazon S3 事件通知加速对 Data Catalog 目标的爬取。有关更多信息,请参阅使用 Amazon S3 事件通知加速网络爬取

2022 年 10 月 13 日

支持指定爬网程序可以创建的最大表数

现已支持指定允许爬网程序创建的最大表数。有关更多信息,请参阅如何指定允许爬网程序创建的最大表数

2022 年 9 月 6 日

在 AWS Glue 中的 Python shell 任务中支持 Python 3.9

现在支持在 AWS Glue 的 Python shell 任务中运行与 Python 3.9 兼容的脚本,以及选择使用预打包的库集。有关更多信息,请参阅 AWS Glue 中的 Python shell 任务

2022 年 8 月 11 日

支持在备用容量上运行非紧急或非时间敏感型 AWS Glue 任务

现在支持为非紧急任务(例如生产前任务、测试和一次性数据加载)配置灵活的任务运行。有关更多信息,请参阅在 AWS Glue 中添加任务

2022 年 8 月 9 日

支持适用于流式处理任务的新 Worker 类型

现在提供适用于低容量流式处理任务的 G.025X 类型。有关更多信息,请参阅在 AWS Glue 中添加任务

2022 年 7 月 14 日

支持在 AWS Glue 连接中使用 Kafka SASL

现在支持在 AWS Glue 连接中使用 Kafka SASL。有关更多信息,请参阅适用于客户端身份认证的 AWS Glue Kafka 连接属性

2022 年 7 月 5 日

针对 Protobuf 架构的 Apache Kafka Connector 支持

现已提供针对 Protobuf 架构的 Apache Kafka Connector 支持 有关更多信息,请参阅 AWS Glue 架构注册表

2022 年 6 月 9 日

支持 AWS Glue 任务的自动扩缩 (GA)

添加了 AWS Glue 版本 3.0 中的任务使用自动扩缩的信息,从而动态扩缩计算资源。有关更多信息,请参阅为 AWS Glue 使用自动扩缩

2022 年 4 月 14 日

更新了有关 AWS Glue 开发和测试 AWS Glue 任务脚本的文档

重组并添加了有关 AWS Glue 的可用开发和测试方法的信息,包括使用 Docker 进行开发的说明。有关更多信息,请参阅开发和测试 AWS Glue 任务脚本

2022 年 3 月 14 日

将协议缓冲区作为受支持的数据格式添加到 AWS Glue 架构注册表

添加了有关 Protobuf 作为受支持的数据格式(除 AVRO 和 JSON 之外)的信息。有关更多信息,请参阅 AWS Glue 架构注册表

2022 年 2 月 25 日

支持爬取 Delta Lake 表

增加了有关使用 AWS Glue 爬取 Delta Lake 表的信息。有关更多信息,请参阅 How to specify configuration options for a Delta Lake data store

2022 年 2 月 24 日

对 AWS Glue 任务洞察的支持

已添加关于使用 AWS Glue 任务洞察的信息,以简化任务调试及对 AWS Glue 任务进行优化。有关更多信息,请参阅通过 AWS Glue 任务洞察进行监控

2022 年 2 月 8 日

使用 VPC 终端节点支持网络爬取 Amazon S3 支持的数据目录表

除了 Amazon S3 数据商店之外,出于安全、审计或控制目的,您可以配置您的 Amazon S3 支持的数据目录表,使之仅由 Amazon Virtual Private Cloud 环境 (Amazon VPC) 访问。有关更多信息,请参阅使用 VPC 终端节点网络爬取 Amazon S3 数据存储或 Amazon S3 支持的数据目录表

2022 年 2 月 3 日

支持 Lake Formation 受管表

添加了关于 AWS Glue 对 Lake Formation 受管表的支持的信息,这些表支持 ACID 事务、自动数据压缩和时间旅行查询。有关更多信息,请参阅 AWS Glue APIAWS Lake Formation 开发人员指南

2021 年 11 月 30 日

添加了适用于交互式会话和笔记本的新 AWS 托管式策略

适用于 IAM 的新托管式策略为将 AWS Glue 与交互式会话和笔记本配合使用提供了增强的安全性。有关更多信息,请参阅适用于 AWS Glue 的 AWS 托管策略

2021 年 11 月 30 日

流式处理任务现在支持 Glue 架构注册表

您可以创建能够访问属于 Glue 架构注册表的表的流式处理任务。有关更多信息,请参阅 AWS Glue 结构注册表在 AWS Glue 中添加流式处理 ETL 任务

2021 年 11 月 15 日

支持新的机器学习功能

添加了关于查找匹配项机器学习转换(包括递增匹配项和匹配项评分)的新功能的信息。有关更多信息,请参阅 查找递增匹配项使用匹配项置信度分数估算匹配项质量

2021 年 10 月 31 日

(私有预览版)支持 AWS Glue 灵活任务

增加了关于配置具有灵活执行类的 AWS Glue Spark 任务的信息,适用于启动和完成时间可能不同的时间不敏感型任务。有关更多信息,请参阅在 AWS Glue 中添加任务

2021 年 10 月 29 日

支持使用 Amazon S3 事件通知加速网络爬取

添加了关于使用 Amazon S3 事件通知加速网络爬取的信息。有关更多信息,请参阅使用 Amazon S3 事件通知加速网络爬取

2021 年 10 月 15 日

与访问控制和 VPC 相关的其他安全配置选项

添加了关于您如何在 AWS Glue 上配置新的访问控制权限以及 VPC 配置信息。有关更多信息,请参阅 AWS Glue 中的 AWS标签使用条件键或上下文键控制设置的基于身份的策略 (IAM policy),以及将所有 AWS 调用配置为通过 VPC 进行

2021 年 10 月 13 日

支持 VPC 终端节点策略

添加了关于支持 AWS Glue 中的 Virtual Private Cloud (VPC) 端点策略的信息。有关更多信息,请参阅 AWS Glue 和接口 VPC 终端节点 (AWS PrivateLink)

2021 年 10 月 11 日

Glue Studio 现已在中国可用

AWS Glue Studio 现已在中国北京和宁夏区域可用。

2021 年 10 月 11 日

AWS Glue Studio 提供笔记本创作,用于交互式作业编辑

笔记本可以帮助您编写和执行代码、可视化结果和共享见解。通常,数据科学家使用笔记本来执行实验和数据探索任务。有关更多信息,请参阅使用 notebook

2021 年 10 月 1 日

现在可以直接访问流式处理源

在可视化编辑器中将数据源添加到 ETL 任务时,您可以提供信息来访问数据流,而不必使用数据目录数据库和表。

2021 年 9 月 30 日

记录了 AWS Glue 版本支持策略

添加了关于 AWS Glue 版本支持策略和某些 AWS Glue 版本的使用寿命结束阶段的信息。有关更多信息,请参阅 AWS Glue 版本支持策略

2021 年 9 月 24 日

自定义连接器现在可以与数据预览一起使用

使用自定义连接器编辑数据源节点时,可以选择 Dat preview(数据集预览)选项卡预览数据集。有关更多信息,请参阅自定义连接器

2021 年 9 月 24 日

支持 AWS Glue 交互式会话(私有预览版)

(私有预览版)添加了关于使用 AWS Glue 交互式会话通过任何 Jupyter Notebook 在云端运行 Spark 工作负载的信息。当您使用 AWS Glue 2.0 或更高版本时,交互式开发是开发 AWS Glue 提取、转换和加载 (ETL) 代码的首选方法。有关更多信息,请参阅为 Jupyter Notebook 设置和运行 AWS Glue 交互式会话

2021 年 8 月 24 日

支持通过蓝图创建工作流 (GA)

添加了有关在蓝图中对常见提取、转换和加载(ETL)使用案例进行编码和通过蓝图创建工作流的信息。使数据分析人员能够轻松创建和运行复杂的 ETL 进程。有关更多信息,请参阅使用 AWS Glue 中的蓝图和工作流执行复杂的 ETL 活动

2021 年 8 月 23 日

支持 AWS Glue 版本 3.0。

添加了有关支持 AWS Glue 版本 3.0 的信息,该版本支持用于运行 Apache Spark ETL 任务的 Apache Spark 3.0 引擎升级,以及其他优化和升级信息。有关更多信息,请参阅 AWS Glue 发布说明将 AWS Glue 任务迁移到 AWS Glue 版本 3.0。此版本中的其他功能包括 AWS Glue 随机播放管理器、SIMD 矢量化 CSV 读取器和目录分区谓词。有关更多信息,请参阅使用 Amazon S3 的 AWS Glue Spark 随机播放管理器AWS Glue 中的 ETL 输入和输出的格式选项使用目录分区谓词的服务器端筛选

2021 年 8 月 18 日

AWS GovCloud (US) Region

AWS Glue Studio 现已在 AWS GovCloud (US) Region 中可用

2021 年 8 月 18 日

Python Shell 编写适用于 AWS Glue Studio

创建新任务时,您现在可以选择创建 Python Shell 任务。有关更多信息,请参阅 开启任务创建流程在 AWS Glue Studio 中编辑 Python Shell 任务

2021 年 8 月 13 日

支持使用 Amazon EventBridge 事件开启工作流

添加了有关 AWS Glue 如何可以成为事件驱动架构中的事件使用者的信息。有关更多信息,请参阅使用 Amazon EventBridge 事件启动 AWS Glue 工作流查看启动工作流的 EventBridge 事件

2021 年 7 月 14 日

将 JSON 作为受支持的数据格式添加到 AWS Glue 架构注册表

添加了有关 JSON 作为受支持的数据格式(除 AVRO 之外)的信息。有关更多信息,请参阅 AWS Glue 架构注册表

2021 年 6 月 30 日

不使用数据目录表创建 AWS Glue 流式处理任务

create_data_frame_from_options Python 函数或 getSource 支持创建直接引用数据流的流式处理 ETL 任务的 Scala 脚本,无需数据目录表。

2021 年 6 月 15 日

AWS Glue 机器学习转换现支持 AWS Key Management Service 密钥

在您使用控制台、CLI 或 AWS Glue API 配置 AWS Glue Machine Learning 转换时,您都可以指定安全配置或 AWS KMS 密钥。有关更多信息,请参阅 将数据加密与 Machine Learning 转换结合使用AWS Glue Machine Learning API

2021 年 6 月 15 日

对 AWSGlueConsoleFullAccess AWS 托管式策略做出的更新

添加了有关对 AWSGlueConsoleFullAccess AWS 托管式策略做出的次要更新信息。有关更多信息,请参阅 AWS Glue 对 AWS 托管式策略做出的更新

2021 年 6 月 10 日

在创建和编辑任务时查看任务的数据集

您可以为任务图中的节点使用新的 Data Preview (数据预览) 选项卡,以查看由该节点处理的数据示例。有关更多信息,请参阅在可视化任务编辑器中使用数据预览

2021 年 6 月 7 日

支持指定用于指示爬网程序输出表位置的值。

添加了有关在配置爬网程序输出时指定表位置的值的信息。有关更多信息,请参阅如何指定表位置

2021 年 6 月 4 日

支持网络爬取 Simple Storage Service (Amazon S3) 数据存储时网络爬取数据集中的示例文件

添加了有关在网络爬取 Amazon S3 时如何网络爬取示例文件的信息。有关更多信息,请参阅爬网程序属性

2021 年 5 月 10 日

支持 AWS Glue 优化的 Parquet 写入器

添加了有关使用针对 DynamicFrames 所优化的 AWS Glue Parquet 写入器,来使用 parquet 分类创建和更新表的信息。有关更多信息,请参阅通过 AWS Glue ETL 任务在数据目录中创建表、更新架构和添加新分区在 AWS Glue 中的 ETL 输入和输出的格式选项

2021 年 5 月 4 日

支持 Kafka 客户端身份验证密码

添加了有关 AWS Glue 中的流式处理 ETL 任务如何支持 Apache Kafka 串流创建器的 SSL 客户端证书身份验证的信息。现在,您可以提供自定义证书,同时定义 Apache Kafka 集群的 AWS Glue 连接,AWS Glue 将在该证书进行身份验证时使用该连接。有关更多信息,请参阅 AWS Glue 连接属性连接 API

2021 年 4 月 28 日

支持在流式处理 ETL 任务的其他账户中使用来自 Amazon Kinesis Data Streams 的数据

添加了有关创建流式处理 ETL 任务以在其他账户中使用来自 Amazon Kinesis Data Streams 的数据的信息。有关更多信息,请参阅在 AWS Glue 中添加流式处理 ETL 任务

2021 年 3 月 30 日

提供 SQL 转换

您可以使用 SQL 转换节点以 SQL 查询形式编写您自己的转换。有关更多信息,请参阅使用 SQL 查询转换数据

2021 年 3 月 23 日

支持从蓝图创建工作流(公开预览版)

(公开预览版)添加了有关在蓝图中对常见提取、转换和加载(ETL)使用案例进行编码和通过蓝图创建工作流的信息。使数据分析人员能够轻松创建和运行复杂的 ETL 进程。有关更多信息,请参阅使用 AWS Glue 中的蓝图和工作流执行复杂的 ETL 活动

2021 年 3 月 22 日

连接器可用于数据目标

现在支持为数据目标使用自定义或 AWS Marketplace 连接器。有关更多信息,请参阅使用自定义连接器编写任务

2021 年 3 月 15 日

支持 AWS Glue 机器学习转换的列重要指标

添加了有关使用 AWS Glue 机器学习转换时查看列重要性指标的信息。有关更多信息,请参阅在 AWS Glue 控制台上使用 Machine Learning 转换

2021 年 2 月 5 日

任务计划现在适用于 AWS Glue Studio

您可以在 AWS Glue Studio 中为任务运行定义基于时间的计划。您可以使用控制台创建基本计划,或者使用类似 Unix 的 cron 语法定义更复杂的计划。有关更多信息,请参阅计划任务运行

2020 年 12 月 21 日

发布了 AWS Glue 自定义连接器

AWS Glue 自定义连接器允许您在 AWS Marketplace 中发现和订阅连接器。我们还发布了 AWS Glue Spark 运行时接口,用于插入为 Apache Spark Datasource、Athena 联合查询和 JDBC API 构建的连接器。有关更多信息,请参阅 在 AWS Glue Studio 中使用连接器和连接

2020 年 12 月 21 日

AWS Glue 版本 2.0 支持运行流式处理 ETL 任务

添加了有关支持在 Glue 版本 2.0 中运行流式处理 ETL 任务的信息 有关更多信息,请参阅在 AWS Glue 中添加流式处理 ETL 任务

2020 年 12 月 18 日

支持具有有界执行的工作负载分区

添加了有关启用工作负载分区来配置数据集大小或 ETL 任务运行时处理的文件数的上限的信息。有关更多信息,请参阅具有有界执行的工作负载分区

2020 年 11 月 23 日

支持增强型分区管理

添加了有关如何使用新 API 将分区索引添加到现有表/从现有表删除的信息。有关更多信息,请参阅使用分区索引

2020 年 11 月 23 日

支持 AWS Glue 架构注册表

添加了有关使用 AWS Glue 架构注册表来集中发现、控制和演变架构的信息。有关更多信息,请参阅 AWS Glue 架构注册表

2020 年 11 月 19 日

支持流式处理 ETL 作业中的 grok 输入格式

添加了有关将 Grok 模式应用于流式处理源(如日志文件)的信息。有关更多信息,请参阅将 Grok 模式应用于流式处理源

2020 年 11 月 17 日

支持在 AWS Glue 控制台将标签添加到工作流

添加了有关使用 AWS Glue 控制台创建工作流时添加标签的信息。有关更多信息,请参阅使用 AWS Glue 控制台创建和构建工作流

2020 年 10 月 27 日

支持递增爬网程序运行

添加了有关支持仅爬取自上次运行以来添加的 Amazon S3 文件夹的增量爬网程序运行的信息。有关更多信息,请参阅增量爬网

2020 年 10 月 21 日

支持流式处理 ETL 数据源的架构检测。支持 Avro 流式处理 ETL 数据源和自行管理 kafka

在 AWS Glue 中的流式处理提取、转换和加载(ETL)任务现在可以自动检测传入记录的架构,并在每条记录的基础上处理架构更改。现已支持自行管理的 Kafka 数据源。流式处理 ETL 任务现支持数据源中的 Avro 格式。有关更多信息,请参阅 AWS Glue 中的流式处理 ETL定义流式处理 ETL 任务的任务属性Avro 流式处理源的注释和限制

2020 年 10 月 7 日

支持网络爬取 MongoDB 和 DocumentDB 数据源

添加了有关支持网络爬取 MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 数据源的信息。有关更多信息,请参阅定义爬网程序

2020 年 10 月 5 日

支持 FIPS 合规性

添加了有关客户在使用 AWS Glue 访问数据时需要 FIPS 140-2 验证的加密模块的 FIPS 终端节点的信息。有关更多信息,请参阅 FIPS 合规性

2020 年 9 月 23 日

AWS Glue Studio 提供了一个易于使用的可视化界面,用于创建和监控任务

现在,您可以使用简单的基于图形的界面来编写移动和转换数据的任务,并可以在 AWS Glue 中运行。然后,您可以在 AWS Glue Studio 中使用任务运行控制面板来监控 ETL 执行情况,并确保您的任务按预期运行。有关更多信息,请参阅《AWS Glue Studio 用户指南》。

2020 年 9 月 23 日

支持创建表索引来提高查询性能

添加了有关创建表索引来允许您从表中检索分区子集的信息。有关更多信息,请参阅使用分区索引

2020 年 9 月 9 日

支持在 AWS Glue 版本 2.0 中运行 Apache Spark ETL 任务时减少启动时间。

添加了有关支持 AWS Glue 版本 2.0 的信息,该版本提供了升级的基础设施,用于运行 Apache Spark ETL 任务,减少了启动时间、更改了日志记录,并支持在任务级别指定其他 Python 模块。有关更多信息,请参阅 AWS Glue 发布说明运行 Spark ETL 任务,减少启动时间

2020 年 8 月 10 日

支持限制并发工作流运行次数。

添加了有关如何限制特定工作流的并发工作流运行次数的信息。有关更多信息,请参阅使用 AWS Glue 控制台创建和构建工作流

2020 年 8 月 10 日

支持使用 VPC 终端节点网络爬取 Simple Storage Service (Amazon S3) 数据存储

添加了有关配置仅通过 Amazon Virtual Private Cloud 环境(Amazon VPC)且出于安全、审计或控制目的,才可以访问 Amazon S3 数据存储的信息。有关更多信息,请参阅使用 VPC 终端节点网络爬取 Amazon S3 数据存储

2020 年 8 月 7 日

支持恢复工作流运行

添加了以下相关信息:如何恢复因一个或多个节点(任务或爬网程序)未成功完成而导致斤部分完成的工作流运行。有关更多信息,请参阅修复和恢复工作流运行

2020 年 7 月 27 日

支持在 AWS Glue Kafka 连接中启用私有 CA 证书。

添加了有关支持在 AWS Glue Kafka 连接中启用私有 CA 证书的新连接选项的信息。有关更多信息,请参阅 AWS Glue 中的 ETL 的连接类型和选项AWS Glue 使用的特殊参数

2020 年 7 月 20 日

支持从其他账户中读取 DynamoDB 数据

添加了有关 AWS Glue 支持从另一个 AWS 账户的 DynamoDB 表中读取数据的信息。有关更多信息,请参阅从另一个账户中读取 DynamoDB 数据

2020 年 7 月 17 日

支持 AWS Glue 版本 1.0 或更高版本中的 DynamoDB 写入器连接

添加了有关支持 DynamoDB 写入器,以及用于 DynamoDB 读取或写入的新连接选项或更新的连接选项的信息。有关更多信息,请参阅 AWS Glue 中的 ETL 的连接类型和选项

2020 年 7 月 17 日

支持同时使用 AWS Glue 和 Lake Formation 的资源链接和跨账户访问权限控制

添加了有关称为资源链接的新数据目录对象,以及如何管理借助 AWS Glue 和 AWS Lake Formation 跨账户的共享数据目录资源的内容。有关更多信息,请参阅授予跨账户访问权限表资源链接

2020 年 7 月 7 日

在对 DynamoDB 数据存储进行网络爬取时,支持对记录进行采样

添加了有关在对 DynamoDB 数据存储进行网络爬取时可配置的新属性的信息。有关更多信息,请参阅爬网程序属性

2020 年 6 月 12 日

支持停止工作流程运行。

添加了有关如何停止特定工作流程的工作流程运行的信息。有关更多信息,请参阅停止工作流程运行

2020 年 5 月 14 日

支持 Spark 流式处理 ETL 任务

增加了有关使用流式处理数据源创建提取、转换和加载 (ETL) 任务的信息。有关更多信息,请参阅在 AWS Glue 中添加流式处理 ETL 任务

2020 年 4 月 27 日

支持在运行 ETL 任务后在数据目录中创建表、更新架构和添加新分区

添加了有关如何启用创建表、更新架构和添加新分区以在数据目录中查看 ETL 作业结果的信息。有关更多信息,请参阅通过 AWS Glue ETL 任务在数据目录中创建表、更新架构和添加新分区

2020 年 4 月 2 日

支持在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出

添加了有关在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出的信息。默认版本 1.7。您可以使用 version 格式选项指定 Avro 版本 1.8 以启用逻辑读取/写入。有关更多信息,请参阅 AWS Glue 中 ETL 输入和输出的格式选项

2020 年 3 月 31 日

支持 EMRFS 经 S3 优化的提交程序,用于将 Parquet 数据写入 Simple Storage Service (Amazon S3)

添加了有关如何设置新标志以启用经 EMRFR S3 优化的提交程序在创建或更新 AWS Glue 任务时将 Parquet 数据写入 Amazon S3 的信息。有关更多信息,请参阅 AWS Glue 所使用的特殊参数

2020 年 3 月 30 日

支持将机器学习转换为由 AWS 资源标签管理的资源

添加了有关使用 AWS 资源标签管理和控制对 AWS Glue 中的机器学习转换的访问的信息。您可以将 AWS 资源标签分配给 AWS Glue 中的任务、触发器、终端节点、爬网程序和机器学习转换。有关更多信息,请参阅 AWS Glue 中的 AWS 标签

2020 年 3 月 2 日

支持不可覆盖的任务参数

添加了有关对于特殊作业参数的支持的信息,您无法在触发器中或运行作业时覆盖这些参数。有关更多信息,请参阅在 AWS Glue 中添加作业

2020 年 2 月 12 日

支持新的转换以在 Simple Storage Service (Amazon S3) 中使用数据集

添加了有关新转换(合并、清除和过渡)和 Amazon S3 存储类排除的信息,以便 Apache Spark 应用程序在 Amazon S3 中使用数据集。有关支持对适用于 Python 的这些转换的更多信息,请参阅 mergeDynamicFrame在 Amazon S3 中使用数据集。对于 Scala,请参阅 mergeDynamicFramesAWS Glue Scala GlueContext API

2020 年 1 月 16 日

支持使用 ETL 任务中的新分区信息更新数据目录

添加了有关如何对提取、转换和加载 (ETL) 脚本进行编码以使用新的分区信息更新 AWS Glue Data Catalog 的信息。使用此功能,您不再需要在作业完成后重新运行爬网程序来查看新分区。有关更多信息,请参阅使用新分区更新数据目录

2020 年 1 月 15 日

新教程:使用 SageMaker 笔记本

添加了一个教程,该教程演示如何使用 Amazon SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。请参阅教程:将 Amazon SageMaker 笔记本与您的开发终端节点结合使用

2020 年 1 月 3 日

支持从 MongoDB 和 Amazon DocumentDB(与 MongoDB 兼容)读取数据

添加了有关用于读取和写入 MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 的新连接类型和连接选项的信息。有关更多信息,请参阅 AWS Glue 中的 ETL 的连接类型和选项

2019 年 12 月 17 日

各种更正和说明

全文中添加了更正和说明。从“已知问题”一章中删除了条目。添加了指示 AWS Glue 仅在指定数据目录加密设置和创建安全配置时支持对称客户主密钥 (CMK) 的警告。添加了指明 AWS Glue 不支持写入 Amazon DynamoDB 的注释。

2019 年 12 月 9 日

支持自定义 JDBC 驱动程序

添加了有关使用 AWS Glue 本身不支持的 JDBC 驱动程序(例如 MySQL 版本 8 和 Oracle 数据库版本 18)连接到数据源和目标的信息。有关更多信息,请参阅 JDBC 连接类型值

2019 年 11 月 25 日

支持将 SageMaker 笔记本连接到不同的开发终端节点

添加了有关您如何将 SageMaker 笔记本连接到不同的开发终端节点的信息。对用于切换到新的开发终端节点的新控制台操作以及新的 SageMaker IAM policy 的描述进行了更新。有关更多信息,请参阅在 AWS Glue 控制台上使用笔记本为 Amazon SageMaker 笔记本创建 IAM policy

2019 年 11 月 21 日

支持机器学习转换的 AWS Glue 版本

添加了有关在机器学习转换中定义 AWS Glue 版本的信息,以指示机器学习转换与哪个版本的 AWS Glue 兼容。有关更多信息,请参阅在 AWS Glue 控制台上使用 Machine Learning 转换

2019 年 11 月 21 日

支持倒回任务书签

添加了有关将您的作业书签倒回之前的任何作业运行,从而使后续作业运行只再处理已做上标签的作业的信息。描述了允许您在两个书签之间运行作业的 job-bookmark-pause 选项的两个新子选项。有关更多信息,请参阅使用任务书签来跟踪已处理的数据由 AWS Glue 使用的特殊参数

2019 年 10 月 22 日

支持自定义 JDBC 证书以连接到数据存储

添加了有关 AWS Glue 支持自定义 JDBC 证书以实现与 AWS Glue 数据源或目标的 SSL 连接的信息。有关更多信息,请参阅使用 AWS Glue 控制台上的连接

2019 年 10 月 10 日

支持 Python Wheel

添加了有关 AWS Glue 支持 wheel 文件(以及 egg 文件)作为 Python shell 任务的依赖项的信息。有关更多信息,请参阅提供您自己的 Python 库

2019 年 9 月 26 日

支持 AWS Glue 中的开发端点的版本控制

添加了有关在开发终端节点中定义 Glue version 的信息。Glue version 确定 AWS Glue 支持的 Apache Spark 和 Python 的版本。有关更多信息,请参阅添加开发终端节点

2019 年 9 月 19 日

支持使用 Spark UI 监控 AWS Glue

添加了有关使用 Apache Spark UI 监控和调试在 AWS Glue 作业系统上运行的 AWS Glue ETL 任务以及在 AWS Glue 开发终端节点上运行的 Spark 应用程序的信息。有关更多信息,请参阅使用 Spark UI 监控 AWS Glue

2019 年 9 月 19 日

使用公有 AWS Glue ETL 库,增强了进行本地 ETL 脚本开发的支持

更新了 AWS Glue ETL 库内容以反映现在支持 AWS Glue 版本 1.0。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本

2019 年 9 月 18 日

支持在运行任务时排除 Simple Storage Service (Amazon S3) 存储类

添加了有关在运行从 Amazon S3 中读取文件或分区的 AWS Glue ETL 任务时排除 Amazon S3 存储类的信息。有关更多信息,请参阅排除 Amazon S3 存储类

2019 年 8 月 29 日

使用公有 AWS Glue ETL 库,支持进行本地 ETL 脚本开发

添加了有关如何在本地开发和测试 Python 和 Scala ETL 脚本,而无需网络连接的信息。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本

2019 年 8 月 28 日

已知问题

添加了有关 AWS Glue 中已知问题的信息。有关更多信息,请参阅 AWS Glue 的已知问题

2019 年 8 月 28 日

支持 AWS Glue 中的机器学习转换

添加了有关 AWS Glue 提供的用以创建自定义转换的机器学习功能的信息。您可以在创建作业时创建这些转换。有关更多信息,请参阅 AWS Glue 中的 Machine Learning 转换

2019 年 8 月 8 日

支持共享 Amazon Virtual Private Cloud

添加了有关 AWS Glue 支持共享 Amazon Virtual Private Cloud 的信息。有关更多信息,请参阅共享的 Amazon VPC

2019 年 8 月 6 日

支持 AWS Glue 中的版本控制

添加了有关在任务属性中定义 Glue version 的信息。AWS Glue 版本确定 AWS Glue 支持的 Apache Spark 和 Python 的版本。有关更多信息,请参阅在 AWS Glue 中添加任务

2019 年 7 月 24 日

支持开发终端节点的其他配置选项

针对具有内存密集型工作负载的开发终端节点,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 AWS Glue 控制台上使用开发终端节点

2019 年 7 月 24 日

支持使用工作流执行提取、传输和加载 (ETL) 活动

添加了以下相关信息:使用称为工作流的新构造来设计可由 AWS Glue 作为单个实体运行和跟踪的复杂的多任务提取、转换和加载(ETL)活动。有关更多信息,请参阅使用 AWS Glue 中的工作流执行复杂的 ETL 活动

2019 年 6 月 20 日

支持 Python Shell 任务中的 Python 3.6

增加了在 Python Shell 作业中对 Python 3.6 的支持的相关信息。您可以指定 Python 2.7 或 Python 3.6 作为作业属性。有关更多信息,请参阅在 AWS Glue 中添加 Python Shell 任务

2019 年 6 月 5 日

支持 virtual private cloud (VPC) 终端节点

添加了有关在 VPC 中通过接口终端节点直接连接到 AWS Glue 的信息。当您使用 VPC 接口端点时,VPC 与 AWS Glue 之间的通信完全在 AWS 网络内安全进行。有关更多信息,请参阅将 AWS Glue 与接口 VPC 终端节点一起使用

2019 年 6 月 4 日

支持对 AWS Glue 任务进行实时的连续日志记录。

添加了有关在 CloudWatch 中启用和查看实时 Apache Spark 任务日志的信息,包括驱动程序日志、各个执行程序日志以及 Spark 任务进度栏。有关更多信息,请参阅 AWS Glue 任务的连续日志记录

2019 年 5 月 28 日

支持将现有数据目录表作为爬网程序源

添加了有关将现有数据目录表的列表指定为爬网程序源的信息。然后,当新数据变为可用时,爬网程序可以检测对表架构的更改、更新表定义并注册新分区。有关更多信息,请参阅爬网程序属性

2019 年 5 月 10 日

对于内存密集型任务支持额外的配置选项

针对具有内存密集型工作负载的 Apache Spark 任务,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 AWS Glue 中添加任务

2019 年 4 月 5 日

支持 CSV 自定义分类器

添加了有关使用自定义 CSV 分类器来推断各种类型的 CSV 数据的架构的信息。有关更多信息,请参阅编写自定义分类器

2019 年 3 月 26 日

支持 AWS 资源标签

添加了有关使用 AWS 资源标签来帮助您管理和控制对 AWS Glue 资源的访问的信息。您可以在 AWS Glue 中将 AWS 资源标签分配给任务、触发器、终端节点和爬网程序。有关更多信息,请参阅 AWS Glue 中的 AWS 标签

2019 年 3 月 20 日

支持 Spark SQL 任务的数据目录

添加了有关配置您的 AWS Glue 任务和开发终端节点以使用 AWS Glue Data Catalog作为外部 Apache Hive 元存储的信息。这允许任务和开发终端节点直接对存储在 AWS Glue Data Catalog 中的表运行 Apache Spark SQL 查询。有关更多信息,请参阅 Spark SQL 任务的 AWS Glue Data Catalog 支持

2019 年 3 月 14 日

支持 Python Shell 任务

添加了有关 Python shell 任务和新字段 Maximum capacity (最大容量) 的信息。有关更多信息,请参阅在 AWS Glue 中添加 Python Shell 任务

2019 年 1 月 18 日

支持数据库和表发生更改时的通知

添加了有关为数据库、表和分区 API 调用的更改生成的事件的信息。您可以在 CloudWatch Events 中配置操作以响应这些事件。有关更多信息,请参阅使用 CloudWatch Events 自动化 AWS Glue

2019 年 1 月 16 日

支持加密连接密码

添加了有关加密连接对象中所用密码的信息。有关更多信息,请参阅加密连接密码

2018 年 12 月 11 日

对于资源级权限和基于资源的策略的支持

添加了有关将资源级权限和基于资源的策略用于 AWS Glue 的信息。有关更多信息,请参阅 AWS Glue 中的安全性中的主题。

2018 年 10 月 15 日

支持 SageMaker 笔记本

添加了有关将 SageMaker 笔记本用于 AWS Glue 开发终端节点的信息。有关更多信息,请参阅管理笔记本

2018 年 10 月 5 日

支持加密

添加了有关对 AWS Glue 使用加密的信息。有关更多信息,请参阅静态加密传输中加密在 AWS Glue 中设置加密

2018 年 8 月 24 日

Apache Spark 任务指标支持

添加了有关使用 Apache Spark 指标的信息,以便更好地调试和分析 ETL 作业。您可以轻松跟踪运行时指标,例如读取和写入的字节数,驱动程序和执行程序的内存使用率和 CPU 负载,以及来自 AWS Glue 控制台的执行程序之间的数据随机排序。有关更多信息,请参阅使用 CloudWatch 指标监控 AWS Glue监控和调试任务以及在 AWS Glue 控制台上处理任务

2018 年 7 月 13 日

支持将 DynamoDB 作为数据源

添加了有关网络爬取 DynamoDB 以及将其用作 ETL 任务的数据源的信息。有关更多信息,请参阅使用爬网程序编录表连接参数

2018 年 7 月 10 日

更新以创建笔记本服务器过程

更新了有关如何在与开发终端节点相关联的 Amazon EC2 实例上创建笔记本服务器的信息。有关更多信息,请参阅创建与开发终端节点相关联的笔记本服务器

2018 年 7 月 9 日

现在可通过 RSS 更新

您现在可以订阅 RSS 源来接收有关 AWS Glue 开发人员指南更新的通知。

2018 年 25 月 6 日

支持任务的延迟通知

添加了有关在任务运行时配置延迟阈值的信息。有关更多信息,请参阅在 AWS Glue 中添加任务

2018 年 5 月 25 日

配置爬网程序以追加新列

添加了有关爬网程序的新配置选项 MergeNewColumns 的信息。有关更多信息,请参阅配置爬网程序

2018 年 5 月 7 日

支持任务超时

添加了有关在任务运行时设置超时阈值的信息。有关更多信息,请参阅在 AWS Glue 中添加任务

2018 年 4 月 10 日

支持 Scala ETL 脚本并基于其他运行状态触发任务

添加了有关使用 Scala 作为 ETL 编程语言的信息。此外,触发器 API 现在还支持在满足任意条件时触发 (除所有条件之外)。此外,还可以基于“失败”或“已停止”的任务运行触发任务 (除“已成功”的任务运行之外)。

2018 年 1 月 12 日

早期更新

下表描述 2018 年 1 月之前发布的每个 AWS Glue 开发人员指南中的重要变化。

更改 描述 日期
支持 XML 数据源和新的爬网程序配置选项 添加了有关为分区更改分类 XML 数据源和新爬网程序选项的信息。 2017 年 11 月 16 日
新转换、对其他 Amazon RDS 数据库引擎的支持以及开发终端节点增强功能 添加了有关映射和筛选转换、对 Amazon RDS Microsoft SQL Server 和 Amazon RDS Oracle 的支持以及开发终端节点的新功能的信息。 2017 年 9 月 29 日
AWS Glue 初始版本 这是 AWS Glue 开发人员指南的初始版本。 2017 年 8 月 14 日