本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Q 数据集成在 AWS Glue
Amazon Q 数据集成 AWS Glue 是一种新的生成式 AI 功能 AWS Glue ,它使数据工程师和 ETL 开发人员能够使用自然语言构建数据集成作业。工程师和开发人员可以让 Amazon Q 撰写作业、解决问题并回答有关 AWS Glue 数据集成的问题。
什么是 Amazon Q?
注意
由 Amazon Bedrock 提供支持: AWS 实现自动滥用检测。由于 Amazon Q 数据集成功能基于 Amazon Bedrock 构建,因此用户可以充分利用 Amazon Bedrock 中实施的控制措施,以便安全、负责任地使用人工智能(AI)。
Amazon Q 是一款生成式人工智能 (AI) 驱动的对话助手,可以帮助您理解、构建、扩展和操作 AWS 应用程序。为Amazon Q提供支持的模型已添加了高质量的 AWS 内容,可为您提供更完整、更具可操作性和参考性的答案,从而加快您的构建。 AWS有关更多信息,请参阅什么是 Amazon Q?
什么是 AWS Glue中的 Amazon Q 数据集成?
中的 Amazon Q 数据集成 AWS Glue 包括以下功能:
聊天 — 中的 Amazon Q 数据集成 AWS Glue 可以用英语回答有关 AWS Glue 数据集成领域的自然语言问题,例如 AWS Glue 源和目标连接器、 AWS Glue ETL 作业、数据目录 AWS Lake Formation、爬虫和其他功能文档和最佳实践。Amazon Q 数据集成以 step-by-step 说明作为 AWS Glue 响应,并包括对其信息源的引用。
数据集成代码生成 — Amazon Q 中的数据集成 AWS Glue 可以回答有关 AWS Glue ETL 脚本的问题,并根据英语自然语言问题生成新代码。
疑难解答 — 中的 AWS Glue Amazon Q 数据集成旨在帮助您了解 AWS Glue 任务中的错误,并提供问题根源和解决问题的 step-by-step 说明。
注意
中的 Amazon Q 数据集成 AWS Glue 不会使用您的对话背景来告知您对话期间的未来回复。与 Amazon Q 数据集成的每次对话 AWS Glue 都独立于您之前或将来的对话。
使用 AWS Glue中的 Amazon Q 数据集成?
在 Amazon Q 面板中,您可以请求 Amazon Q 为 AWS Glue ETL 脚本生成代码,或者回答有关 AWS Glue 功能的问题或对错误进行故障排除。响应是一个 ETL 脚本, PySpark 其中包含自定义脚本、查看和执行脚本的 step-by-step 说明。对于问题,将根据数据集成知识库生成回复,并含有摘要和来源 URL 供参考。
例如,您可以让 Amazon Q “请提供一个从 Snowflake 读取、重命名字段并写入 Redshift 的 Glue 脚本”,作为响应,Amazon Q 数据集成 AWS Glue 将返回一个可以执行所请求操作的 AWS Glue 任务脚本。您可以查看生成的代码,确保其满足请求的意图。如果满意,则可以将其部署为生产中的 AWS Glue 作业。您可以要求集成说明错误和故障,并提出解决方案,从而对作业进行故障排除。Amazon Q 可以回答有关 AWS Glue 我们的数据集成最佳实践的问题。
![在 AWS Glue中使用 Amazon Q 数据集成的示例。](images/q-chat-experience-1.gif)
以下是示例问题,演示了 Amazon Q 数据集成 AWS Glue 如何帮助您在此基础上再接再厉 AWS Glue:
AWS Glue ETL 代码生成:
编写一个从 S3 读取 JSON、使用应用映射转换字段并写入 Amazon Redshift 的 AWS Glue 脚本
如何编写 AWS Glue 脚本,用于从 DynamoDB 读取、应用转换并以 Parquet DropNullFields 的形式写入 S3?
给我一个 AWS Glue 脚本,它可以从 MySQL 读取,根据我的业务逻辑删除一些字段,然后写入 Snowflake
写一个 AWS Glue 任务来从 DynamoDB 读取然后以 JSON 的形式写入 S3
帮我开发一个 S3 AWS Glue 数据目录的 AWS Glue 脚本
写一个 AWS Glue 任务来从 S3 读取 JSON,删除空值然后写入 Redshift
AWS Glue 功能说明:
如何使用 AWS Glue 数据质量?
如何使用 AWS Glue 招聘书签?
如何启用 AWS Glue 自动缩放?
AWS Glue 动态帧和 Spark 数据帧有什么区别?
支持哪些不同类型的连接 AWS Glue?
AWS Glue 疑难解答:
如何解决 AWS Glue 作业中的内存不足 (OOM) 错误?
在设置 AWS Glue 数据质量时,您可能会看到哪些错误消息?如何修复它们?
如何修复错误为 Amazon S3 访问被拒绝的 AWS Glue 任务?
如何解决 AWS Glue 作业数据随机排列的问题?
与 Amazon Q 数据集成交互的最佳实践
以下是与 Amazon Q 数据集成交互的最佳实践:
在与 Amazon Q 数据集成交互时,请提出具体问题,在有复杂请求时进行迭代,并验证答案是否准确。
在以自然语言提供数据集成提示时,请尽可能具体,以帮助助手准确了解您的需求。与其询问 “从 S3 中提取数据”,不如提供更多详细信息,例如 “编写从 S3 中提取 JSON 文件的 AWS Glue 脚本”。
在运行生成的脚本之前,请对其进行检查,以确保准确性。如果生成的脚本有错误或与您的意图不符,请向助手提供有关如何更正该脚本的说明。
生成式人工智能技术是一项全新的技术,其回复中可能会出现错误,有时将这种错误称为幻觉。在您的环境或工作负载中使用代码之前,请对所有代码进行测试并检查是否存在错误和漏洞。
AWS Glue 服务改进中的 Amazon Q 数据集成
为了帮助 Amazon Q 数据集成 AWS Glue 提供最相关的 AWS 服务信息,我们可能会使用 Amazon Q 中的某些内容,例如您向 Amazon Q 提出的问题及其回复,以改进服务。
有关我们使用哪些内容以及如何选择退出的信息,请参阅 Amazon Q 开发者用户指南中的 Amazon Q 开发者服务改进。
注意事项
在 AWS Glue中使用 Amazon Q 数据集成之前,请考虑以下各项:
目前,代码生成仅适用于内 PySpark 核。生成的代码适用于基于 Python Spark 的 AWS Glue 作业。
有关中支持的 Amazon Q 数据集成代码生成功能组合的信息 AWS Glue,请参阅支持的代码生成功能。