常见数据类型
常见数据类型介绍 AWS Glue 中的各种常见的数据类型。
Tag 结构
Tag
对象表示用户可分配给 AWS 资源的标签。每个标签都包含定义的一个密钥和一个可选值。
有关标签以及如何控制对 AWS Glue 中资源的访问的更多信息,请参阅开发人员指南中的 AWS Glue 中的 AWS 标签和 指定 AWS Glue 资源 ARN。
字段
-
key
– UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。标签键。在对象上创建标签时需要这个键。键区分大小写,并且不得包含前缀 aws。
-
value
– UTF-8 字符串,不超过 256 个字节。标签值。在对象上创建标签时,值是可选的。值区分大小写,并且不得包含前缀 aws。
DecimalNumber 结构
包含以十进制格式表示的数字值。
字段
-
UnscaledValue
– 必填:Blob。未标定的数字值。
-
Scale
– 必填:数字(整数)。确定小数点落在未标定的值中的位置的标定。
ErrorDetail 结构
包含有关错误的详细信息。
字段
-
ErrorCode
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。与此错误关联的代码。
-
ErrorMessage
– 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。描述错误的消息。
PropertyPredicate 结构
定义属性谓词。
字段
-
Key
– 值字符串,不超过 1024 个字节。属性的键。
-
Value
– 值字符串,不超过 1024 个字节。属性的值。
-
Comparator
– UTF-8 字符串(有效值:EQUALS
|GREATER_THAN
|LESS_THAN
|GREATER_THAN_EQUALS
|LESS_THAN_EQUALS
)。用于将此属性与其他属性进行比较的比较运算符。
ResourceUri 结构
函数资源的 URI。
字段
-
ResourceType
– UTF-8 字符串(有效值:JAR
|FILE
|ARCHIVE
)。资源的类型。
-
Uri
- 统一资源标识符 (uri),不少于 1 个字节或超过 1024 个字节,与 URI address multi-line string pattern 匹配。用于访问资源的 URI。
ColumnStatistics 结构
表示表或分区生成的列级统计数据。
字段
-
ColumnName
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。统计数据所属列的名称。
-
ColumnType
– 必填:类型名称,长度不超过 20000 个字节,与 Single-line string pattern 匹配。列的数据类型。
-
AnalyzedTime
– 必填:时间戳。生成列统计数据的时间戳。
-
StatisticsData
– 必填:一个 ColumnStatisticsData 对象。ColumnStatisticData
对象,其中包含统计数据值。
ColumnStatisticsError 结构
封装失败的 ColumnStatistics
对象以及失败原因。
字段
-
ColumnStatistics
– 一个 ColumnStatistics 对象。列的
ColumnStatistics
。 -
Error
– 一个 ErrorDetail 对象。包含操作失败原因的错误消息。
ColumnError 结构
封装失败的列名称以及失败原因。
字段
-
ColumnName
– UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。封装失败的列名称。
-
Error
– 一个 ErrorDetail 对象。包含操作失败原因的错误消息。
ColumnStatisticsData 结构
包含单个类型的列统计数据。只应设置一个数据对象,并由 Type
属性指示。
字段
-
Type
– 必填:UTF-8 字符串(有效值:BOOLEAN
|DATE
|DECIMAL
|DOUBLE
|LONG
|STRING
|BINARY
)。列统计数据的类型。
-
BooleanColumnStatisticsData
– 一个 BooleanColumnStatisticsData 对象。布尔值列统计数据。
-
DateColumnStatisticsData
– 一个 DateColumnStatisticsData 对象。日期列统计数据。
-
DecimalColumnStatisticsData
– 一个 DecimalColumnStatisticsData 对象。十进制列统计数据。其中的 UnscaledValues 是 Base64 编码的二进制对象,存储十进制未缩放值的大端二进制补码表示法。
-
DoubleColumnStatisticsData
– 一个 DoubleColumnStatisticsData 对象。双列统计数据。
-
LongColumnStatisticsData
– 一个 LongColumnStatisticsData 对象。长列统计数据。
-
StringColumnStatisticsData
– 一个 StringColumnStatisticsData 对象。字符串列统计数据。
-
BinaryColumnStatisticsData
– 一个 BinaryColumnStatisticsData 对象。二进制列统计数据。
BooleanColumnStatisticsData 结构
定义支持布尔值数据列的列统计数据。
字段
-
NumberOfTrues
– 必填:数字(长度),至多为“无”。列中的 True 值数量。
-
NumberOfFalses
– 必填:数字(长度),至多为“无”。列中的 False 数量。
-
NumberOfNulls
– 必填:数字(长度),至多为“无”。列中空值的数量。
DateColumnStatisticsData 结构
定义支持时间戳数据列的列统计数据。
字段
-
MinimumValue
– 时间戳。列中的最低值。
-
MaximumValue
– 时间戳。列中的最高值。
-
NumberOfNulls
– 必填:数字(长度),至多为“无”。列中空值的数量。
-
NumberOfDistinctValues
– 必填:数字(长度),至多为“无”。列中的独特值的数量。
DecimalColumnStatisticsData 结构
定义支持固定点数数据列的列统计数据。
字段
-
MinimumValue
– 一个 DecimalNumber 对象。列中的最低值。
-
MaximumValue
– 一个 DecimalNumber 对象。列中的最高值。
-
NumberOfNulls
– 必填:数字(长度),至多为“无”。列中空值的数量。
-
NumberOfDistinctValues
– 必填:数字(长度),至多为“无”。列中的独特值的数量。
DoubleColumnStatisticsData 结构
定义支持浮动点数数据列的列统计数据。
字段
-
MinimumValue
– 数字(double)。列中的最低值。
-
MaximumValue
– 数字(double)。列中的最高值。
-
NumberOfNulls
– 必填:数字(长度),至多为“无”。列中空值的数量。
-
NumberOfDistinctValues
– 必填:数字(长度),至多为“无”。列中的独特值的数量。
LongColumnStatisticsData 结构
定义支持整数数据列的列统计数据。
字段
-
MinimumValue
– 数字(长型)。列中的最低值。
-
MaximumValue
– 数字(长型)。列中的最高值。
-
NumberOfNulls
– 必填:数字(长度),至多为“无”。列中空值的数量。
-
NumberOfDistinctValues
– 必填:数字(长度),至多为“无”。列中的独特值的数量。
StringColumnStatisticsData 结构
定义支持字符序列数据值的列统计数据。
字段
-
MaximumLength
– 必填:数字(长度),至多为“无”。列中最长字符串的长度。
-
AverageLength
– 必填:数字(长度),至多为“无”。列中的平均字符串长度。
-
NumberOfNulls
– 必填:数字(长度),至多为“无”。列中空值的数量。
-
NumberOfDistinctValues
– 必填:数字(长度),至多为“无”。列中的独特值的数量。
BinaryColumnStatisticsData 结构
定义支持位序列数据值的列统计数据。
字段
-
MaximumLength
– 必填:数字(长度),至多为“无”。列中最长位序列的长度。
-
AverageLength
– 必填:数字(长度),至多为“无”。列中的平均位序列长度。
-
NumberOfNulls
– 必填:数字(长度),至多为“无”。列中空值的数量。
字符串模式
API 使用以下正则表达式来定义对于各种字符串参数和成员有效的内容:
单行字符串模式 -“
[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\t]*
”URI 地址多行字符串模式 -“
[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\n\t]*
”Logstash Grok 字符串模式 -“
[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\t]*
”标识符字符串模式 -“
[A-Za-z_][A-Za-z0-9_]*
”AWS IAM ARN 字符串模式 –“
arn:aws:iam::\d{12}:role/.*
”版本字符串模式 -“
^[a-zA-Z0-9-_]+$
”日志组字符串模式 -“
[\.\-_/#A-Za-z0-9]+
”日志流字符串模式 -“
[^:*]*
”自定义字符串模式 #10 –“
[^\r\n]
”自定义字符串模式 #11 –“
^arn:aws(-(cn|us-gov|iso(-[bef])?))?:secretsmanager:.*$
”自定义字符串模式 #12 –“
^(https?)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]
”自定义字符串模式 #13 –“
\S+
”自定义字符串模式 #14 –“
^(https?):\/\/[^\s/$.?#].[^\s]*$
”自定义字符串模式 #15 –“
^subnet-[a-z0-9]+$
”自定义字符串模式 #16 –“
[\p{L}\p{N}\p{P}]*
”自定义字符串模式 #17 –“
[a-f0-9]{8}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{12}
”自定义字符串模式 #18 –“
[a-zA-Z0-9-_$#.]+
”自定义字符串模式 #19 –“
^\w+\.\w+\.\w+$
”自定义字符串模式 #20 –“
^\w+\.\w+$
”自定义字符串模式 #21 –“
^([2-3]|3[.]9)$
”自定义字符串模式 #22 –“
arn:(aws|aws-us-gov|aws-cn):glue:.*
”自定义字符串模式 #23 –“
(^arn:aws:iam::\w{12}:root)
”自定义字符串模式 #24 –“
^arn:aws(-(cn|us-gov|iso(-[bef])?))?:iam::[0-9]{12}:role/.+
”自定义字符串模式 #25 –“
arn:aws:kms:.*
”自定义字符串模式 #26 –“
arn:aws[^:]*:iam::[0-9]*:role/.+
”自定义字符串模式 #27 –“
[\.\-_A-Za-z0-9]+
”自定义字符串模式 #28 –“
^s3://([^/]+)/([^/]+/)*([^/]+)$
”自定义字符串模式 #29 –“
.*
”自定义字符串模式 #30 –“
^(Sun|Mon|Tue|Wed|Thu|Fri|Sat):([01]?[0-9]|2[0-3])$
”自定义字符串模式 #31 –“
[a-zA-Z0-9_.-]+
”自定义字符串模式 #32 –“
[A-Z][A-Za-z\.]+
”自定义字符串模式 #33 –“
.*\S.*
”自定义字符串模式 #34 –“
[a-zA-Z0-9-=._/@]+
”自定义字符串模式 #35 – "
[1-9][0-9]*|[1-9][0-9]*-[1-9][0-9]*
"自定义字符串模式 36 –“
[\s\S]*
”自定义字符串模式 37 –“
([\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF]|[^\S\r\n"'= ;])*
”自定义字符串模式 #38 –“
^[A-Z\_]+$
”自定义字符串模式 #39 –“
^[A-Za-z0-9]+$
”自定义字符串模式 #40 –“
[*A-Za-z0-9_-]*
”自定义字符串模式 #41 –“
([\u0020-\u007E\r\s\n])*
”自定义字符串模式 #42 –“
[A-Za-z0-9_-]*
”自定义字符串模式 #43 –“
([\u0009\u000B\u000C\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF])*
”自定义字符串模式 #44 –“
([\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\s])*
”自定义字符串模式 #45 –“
([^\r\n])*
”