CreateProfileJob - AWS Glue DataBrew

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CreateProfileJob

创建新作业以分析数据集并创建其数据配置文件。

请求语法

POST /profileJobs HTTP/1.1 Content-type: application/json { "Configuration": { "ColumnStatisticsConfigurations": [ { "Selectors": [ { "Name": "string", "Regex": "string" } ], "Statistics": { "IncludedStatistics": [ "string" ], "Overrides": [ { "Parameters": { "string" : "string" }, "Statistic": "string" } ] } } ], "DatasetStatisticsConfiguration": { "IncludedStatistics": [ "string" ], "Overrides": [ { "Parameters": { "string" : "string" }, "Statistic": "string" } ] }, "EntityDetectorConfiguration": { "AllowedStatistics": [ { "Statistics": [ "string" ] } ], "EntityTypes": [ "string" ] }, "ProfileColumns": [ { "Name": "string", "Regex": "string" } ] }, "DatasetName": "string", "EncryptionKeyArn": "string", "EncryptionMode": "string", "JobSample": { "Mode": "string", "Size": number }, "LogSubscription": "string", "MaxCapacity": number, "MaxRetries": number, "Name": "string", "OutputLocation": { "Bucket": "string", "BucketOwner": "string", "Key": "string" }, "RoleArn": "string", "Tags": { "string" : "string" }, "Timeout": number, "ValidationConfigurations": [ { "RulesetArn": "string", "ValidationMode": "string" } ] }

URI 请求参数

该请求不使用任何 URI 参数。

请求体

请求接受采用 JSON 格式的以下数据。

DatasetName

此作业要处理的数据集的名称。

类型:字符串

长度限制:长度下限为 1。最大长度为 255。

必需:是

Name

要创建的任务的名称。有效字符包括字母数字(A-Z、a-z、0-9)、连字符 (-)、句点 (.) 和空格。

类型:字符串

长度限制:长度下限为 1。最大长度为 240。

必需:是

OutputLocation

表示 Amazon S3 位置(存储桶名称、存储桶拥有者和对象密钥), DataBrew 可以在其中读取输入数据或写入任务的输出。

类型:S3Location 对象

必需:是

RoleArn

DataBrew 运行任务时要假设的 AWS Identity and Access Management (IAM) 角色的亚马逊资源名称 (ARN)。

类型:字符串

长度约束:最小长度为 20。最大长度为 2048。

必需:是

Configuration

配置文件作业的配置。用于选择列、进行评估和覆盖评估的默认参数。当配置为空时,分析作业将使用默认设置运行。

类型:ProfileConfiguration 对象

必需:否

EncryptionKeyArn

用于保护任务的加密密钥的 Amazon 资源名称 (ARN)。

类型:字符串

长度约束:最小长度为 20。最大长度为 2048。

必需:否

EncryptionMode

作业的加密模式包括以下几种:

  • SSE-KMS-SSE-KMS-使用 AWS KMS托管密钥进行服务器端加密。

  • SSE-S3 - 使用 Amazon S3 托管密钥进行服务器端加密。

类型:字符串

有效值:SSE-KMS | SSE-S3

必需:否

JobSample

仅适用于配置文件作业的示例配置。确定要执行分析作业的行数。如果未提供 JobSample 值,则将使用默认值。模式参数的默认值为 CUSTOM_ROWS,大小参数的默认值为 20000。

类型:JobSample 对象

必需:否

LogSubscription

为任务启用或禁用 Amazon CloudWatch 日志记录。如果启用了日志记录,则为每个作业运行 CloudWatch 写入一个日志流。

类型:字符串

有效值:ENABLE | DISABLE

必需:否

MaxCapacity

作业处理数据时 DataBrew 可使用的最大节点数。

类型:整数

必需:否

MaxRetries

作业运行失败后重试此作业的最大次数。

类型:整数

有效范围:最小值为 0。

必需:否

Tags

适用于此任务的元数据标签。

类型:字符串到字符串映射

地图条目:最大数量为 200 个项目。

密钥长度限制:最小长度为 1。长度上限为 128。

值长度限制:最大长度为 256。

必需:否

Timeout

作业的超时(以分钟为单位)。如果作业的运行时间超出此超时时间,作业将以 TIMEOUT 状态结束。

类型:整数

有效范围:最小值为 0。

必需:否

ValidationConfigurations

应用于配置文件作业的验证配置列表。

类型:ValidationConfiguration 对象数组

数组成员:最少 1 个物品。

必需:否

响应语法

HTTP/1.1 200 Content-type: application/json { "Name": "string" }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回以下数据。

Name

已创建的作业的名称。

类型:字符串

长度限制:长度下限为 1。最大长度为 240。

错误

有关所有操作的常见错误信息,请参阅常见错误

AccessDeniedException

对指定资源的访问被拒绝。

HTTP 状态代码:403

ConflictException

更新或删除资源可能会导致状态不一致。

HTTP 状态代码:409

ResourceNotFoundException

找不到一个或多个资源。

HTTP 状态代码:404

ServiceQuotaExceededException

超过了服务配额。

HTTP 状态代码:402

ValidationException

此请求的输入参数未通过验证。

HTTP 状态代码:400

另请参阅

有关在特定语言的 AWS SDK 中使用此 API 的更多信息,请参阅以下内容: