Amazon Q 数据集成在 AWS Glue - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Q 数据集成在 AWS Glue

Amazon Q 数据集成 AWS Glue 是一种新的生成式 AI 功能 AWS Glue ,它使数据工程师和 ETL 开发人员能够使用自然语言构建数据集成作业。工程师和开发人员可以让 Amazon Q 撰写作业、解决问题并回答有关 AWS Glue 数据集成的问题。

什么是 Amazon Q?

注意

由 Amazon Bedrock 提供支持: AWS 实现自动滥用检测。由于 Amazon Q 数据集成功能基于 Amazon Bedrock 构建,因此用户可以充分利用 Amazon Bedrock 中实施的控制措施,以便安全、负责任地使用人工智能(AI)。

Amazon Q 是一款生成式人工智能 (AI) 驱动的对话助手,可以帮助您理解、构建、扩展和操作 AWS 应用程序。为Amazon Q提供支持的模型已添加了高质量的 AWS 内容,可为您提供更完整、更具可操作性和参考性的答案,从而加快您的构建。 AWS有关更多信息,请参阅什么是 Amazon Q?

什么是 AWS Glue中的 Amazon Q 数据集成?

中的 Amazon Q 数据集成 AWS Glue 包括以下功能:

  • 聊天 — 中的 Amazon Q 数据集成 AWS Glue 可以用英语回答有关 AWS Glue 数据集成领域的自然语言问题,例如 AWS Glue 源和目标连接器、 AWS Glue ETL 作业、数据目录 AWS Lake Formation、爬虫和其他功能文档和最佳实践。Amazon Q 数据集成以 step-by-step 说明作为 AWS Glue 响应,并包括对其信息源的引用。

  • 数据集成代码生成 — Amazon Q 中的数据集成 AWS Glue 可以回答有关 AWS Glue ETL 脚本的问题,并根据英语自然语言问题生成新代码。

  • 疑难解答 — 中的 AWS Glue Amazon Q 数据集成旨在帮助您了解 AWS Glue 任务中的错误,并提供问题根源和解决问题的 step-by-step 说明。

注意

中的 Amazon Q 数据集成 AWS Glue 不会使用您的对话背景来告知您对话期间的未来回复。与 Amazon Q 数据集成的每次对话 AWS Glue 都独立于您之前或将来的对话。

使用 AWS Glue中的 Amazon Q 数据集成?

在 Amazon Q 面板中,您可以请求 Amazon Q 为 AWS Glue ETL 脚本生成代码,或者回答有关 AWS Glue 功能的问题或对错误进行故障排除。响应是一个 ETL 脚本, PySpark 其中包含自定义脚本、查看和执行脚本的 step-by-step 说明。对于问题,将根据数据集成知识库生成回复,并含有摘要和来源 URL 供参考。

例如,您可以让 Amazon Q “请提供一个从 Snowflake 读取、重命名字段并写入 Redshift 的 Glue 脚本”,作为响应,Amazon Q 数据集成 AWS Glue 将返回一个可以执行所请求操作的 AWS Glue 任务脚本。您可以查看生成的代码,确保其满足请求的意图。如果满意,则可以将其部署为生产中的 AWS Glue 作业。您可以要求集成说明错误和故障,并提出解决方案,从而对作业进行故障排除。Amazon Q 可以回答有关 AWS Glue 我们的数据集成最佳实践的问题。

在 AWS Glue中使用 Amazon Q 数据集成的示例。

以下是示例问题,演示了 Amazon Q 数据集成 AWS Glue 如何帮助您在此基础上再接再厉 AWS Glue:

AWS Glue ETL 代码生成:

  • 编写一个从 S3 读取 JSON、使用应用映射转换字段并写入 Amazon Redshift 的 AWS Glue 脚本

  • 如何编写 AWS Glue 脚本,用于从 DynamoDB 读取、应用转换并以 Parquet DropNullFields 的形式写入 S3?

  • 给我一个 AWS Glue 脚本,它可以从 MySQL 读取,根据我的业务逻辑删除一些字段,然后写入 Snowflake

  • 写一个 AWS Glue 任务来从 DynamoDB 读取然后以 JSON 的形式写入 S3

  • 帮我开发一个 S3 AWS Glue 数据目录的 AWS Glue 脚本

  • 写一个 AWS Glue 任务来从 S3 读取 JSON,删除空值然后写入 Redshift

AWS Glue 功能说明:

  • 如何使用 AWS Glue 数据质量?

  • 如何使用 AWS Glue 招聘书签?

  • 如何启用 AWS Glue 自动缩放?

  • AWS Glue 动态帧和 Spark 数据帧有什么区别?

  • 支持哪些不同类型的连接 AWS Glue?

AWS Glue 疑难解答:

  • 如何解决 AWS Glue 作业中的内存不足 (OOM) 错误?

  • 在设置 AWS Glue 数据质量时,您可能会看到哪些错误消息?如何修复它们?

  • 如何修复错误为 Amazon S3 访问被拒绝的 AWS Glue 任务?

  • 如何解决 AWS Glue 作业数据随机排列的问题?

与 Amazon Q 数据集成交互的最佳实践

以下是与 Amazon Q 数据集成交互的最佳实践:

  • 在与 Amazon Q 数据集成交互时,请提出具体问题,在有复杂请求时进行迭代,并验证答案是否准确。

  • 在以自然语言提供数据集成提示时,请尽可能具体,以帮助助手准确了解您的需求。与其询问 “从 S3 中提取数据”,不如提供更多详细信息,例如 “编写从 S3 中提取 JSON 文件的 AWS Glue 脚本”。

  • 在运行生成的脚本之前,请对其进行检查,以确保准确性。如果生成的脚本有错误或与您的意图不符,请向助手提供有关如何更正该脚本的说明。

  • 生成式人工智能技术是一项全新的技术,其回复中可能会出现错误,有时将这种错误称为幻觉。在您的环境或工作负载中使用代码之前,请对所有代码进行测试并检查是否存在错误和漏洞。

AWS Glue 服务改进中的 Amazon Q 数据集成

为了帮助 Amazon Q 数据集成 AWS Glue 提供最相关的 AWS 服务信息,我们可能会使用 Amazon Q 中的某些内容,例如您向 Amazon Q 提出的问题及其回复,以改进服务。

有关我们使用哪些内容以及如何选择退出的信息,请参阅 Amazon Q 开发者用户指南中的 Amazon Q 开发者服务改进

注意事项

在 AWS Glue中使用 Amazon Q 数据集成之前,请考虑以下各项:

  • 目前,代码生成仅适用于内 PySpark 核。生成的代码适用于基于 Python Spark 的 AWS Glue 作业。

  • 有关中支持的 Amazon Q 数据集成代码生成功能组合的信息 AWS Glue,请参阅支持的代码生成功能