在 AWS Glue Studio 中使用 Delta Lake 框架
在数据来源中使用 Delta Lake 框架
在 Amazon S3 数据来源中使用 Delta Lake 框架
-
从“来源”菜单中选择 Amazon S3。
-
如果您选择 Data Catalog 表作为 Amazon S3 来源类型,请选择数据库和表。
-
AWS Glue Studio 显示格式为 Delta Lake 和 Amazon S3 URL。
-
选择其他选项以输入键值对。例如,键值对可能为:键:timestampAsOf 和值:2023-02-24 14:16:18。
-
如果您选择 Amazon S3 位置作为 Amazon S3 来源类型,请通过单击浏览 Amazon S3 选择 Amazon S3 URL。
-
在数据格式中,选择 Delta Lake。
注意
如果 AWS Glue Studio 无法从您选择的 Amazon S3 文件夹或文件推断出架构,请选择其他选项来选择新的文件夹或文件。
在其他选项中,从架构推断下的以下选项中进行选择:
-
让 AWS Glue Studio 自动选择示例文件:AWS Glue Studio 将在 Amazon S3 位置选择一个示例文件,以便推断出架构。在自动取样文件字段中,您可以查看自动选择的文件。
-
从 Amazon S3 中选择示例文件:单击浏览 Amazon S3,选择要使用的 Amazon S3 文件。
-
-
单击推断架构。然后可以通过单击输出架构选项卡来查看输出架构。
在 Data Catalog 数据来源中使用 Delta Lake 框架
-
从来源菜单中选择“AWS Glue Studio Data Catalog”。
-
在数据来源属性选项卡中,选择数据库和表。
-
AWS Glue Studio 将格式类型显示为 Delta Lake 和 Amazon S3 URL。
注意
如果尚未将 Delta Lake 来源注册为 AWS Glue 数据目录表,则有两种选择:
-
为 Delta Lake 数据创建 AWS Glue 爬网程序。有关更多信息,请参阅如何为 Delta Lake 数据存储指定配置选项。
-
使用 Amazon S3 数据来源选择 Delta Lake 数据来源。请参阅 在 Amazon S3 数据来源中使用 Delta Lake 框架 。
-
在数据目标中使用 Delta Lake 格式
在 Data Catalog 数据目标中使用 Delta Lake 格式
-
从目标菜单中选择“AWS Glue Studio Data Catalog”。
-
在数据来源属性选项卡中,选择数据库和表。
-
AWS Glue Studio 将格式类型显示为 Delta Lake 和 Amazon S3 URL。
在 Amazon S3 数据来源中使用 Delta Lake 格式
输入值或从可用选项中进行选择以配置 Delta Lake 格式。
-
压缩类型:选择一种压缩类型选项:未压缩或 Snappy。
-
Amazon S3 目标位置:通过单击浏览 S3 来选择 Amazon S3 目标位置。
-
Data Catalog 更新选项:在 Glue Studio 可视化编辑器中,此格式不支持更新 Data Catalog。
-
Do not update the Data Catalog (请勿更新数据目录):(默认)如果您不希望任务更新数据目录(即使架构更改或添加了新分区),请选择此选项。
-
要在 AWS Glue 作业执行后更新 Data Catalog,请运行或计划 AWS Glue 爬网程序。有关更多信息,请参阅如何为 Delta Lake 数据存储指定配置选项。
-
-
分区键:选择要在输出中用作分区键的列。要添加更多分区键,请选择 Add a partition key (添加分区键)。
-
可选择其他选项以输入键值对。例如,键值对可能为:键:timestampAsOf 和值:2023-02-24 14:16:18。