连接参数 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

连接参数

以下列表详细介绍了每个数据存储的 AWS Glue 连接所支持的 Python 属性。

亚马逊 Redshift 连接参数

与亚马逊 Redshift 的连接支持以下 Python AWS Glue 连接参数。

类型 描述 约束 必需
auto_create 类型:boolean 表示如果用户不存在,是否应创建用户。默认值为 false true, false
aws_secret_arn 类型:string 用于检索连接其他参数的密钥的 ARN。 有效的 ARN
cluster_identifier 类型:string-最大长度:63 Amazon Redshift 集群的集群标识符。 ^ (?!。 *—) [a-z] [a-z0-9-] {0,61} [a-z0-9] $
database 类型:string-最大长度:127 要连接的数据库的名称。
database_metadata_current_db_only 类型:boolean 表示应用程序是否支持多数据库数据共享目录。默认为表示应用程序不支持多数据库数据共享目录true以实现向后兼容。 true, false
db_groups 类型:string 以逗号分隔的现有数据库组名称列表,这些数据库组在当前会db_user话中加入这些名称。
db_user 类型:string 用于 Amazon Redshift 的用户 ID。
host 类型:string-最大长度:256 亚马逊 Redshift 集群的主机名。
iam 类型:boolean 标记为连接启用或禁用基于 IAM 的身份验证。默认值为 false true, false
iam_disable_cache 类型:boolean 此选项指定是否缓存 IAM 凭证。默认值为 true。当对 API 网关的请求受到限制时,这样可以提高性能。 true, false
max_prepared_statements 类型:integer 一次可以打开的最大预处理语句数。
numeric_to_float 十进制到浮点数 指定NUMERIC数据类型值是否将从十进制转换。默认情况下,这些NUMERIC值是作为 decimal.Decimal Python 对象接收的。对于希望精度最高的用例,不建议启用此选项,因为结果可能会四舍五入。在启用此选项float之前,请参阅 Python 文档decimal.Decimal以了解两者decimal.Decimal之间的权衡取舍。默认值为 false true, false
port 类型:integer Amazon Redshift 集群的端口号。 范围 1150-65535
profile 类型:string-最大长度:256 包含所用凭据和设置的配置文件的名称 AWS CLI。
region 类型:string 集群所在的 AWS 区域。 有效 AWS 区域
serverless_acct_id 类型:string-最大长度:256 与 Amazon Redshift 无服务器资源关联的 AWS 账户 ID。
serverless_work_group 类型:string-最大长度:256 Amazon Redshift 无服务器终端节点的工作组名称。
ssl 类型:boolean true如果启用了 SSL。 true, false
ssl_mode 类型:枚举 [verify-ca,verify-full, null]) 与亚马逊 Redshift 连接的安全性。 verify-ca(必须使用 SSL 且必须验证服务器证书。)和verify-full(必须使用 SSL。 必须验证服务器证书,并且服务器主机名必须与证书上的主机名属性相匹配。)受支持。有关更多信息,请参阅 Amazon Redshift 文档中的为连接配置安全选项。默认值为 verify-ca verify-ca, verify-full
timeout 类型:integer 连接服务器时发生超时前等待的秒数。 0

Athena 连接参数

与 Athena 的连接支持以下 Python AWS Glue 连接参数。

类型 描述 约束 必需
aws_access_key_id 类型:string-最大长度:256 指定与 IAM 账户关联的 AWS 访问密钥。我们建议将此信息存储在aws_secret 长度 16-128
aws_secret_access_key 类型:string-最大长度:256 AWS 访问密钥的秘密部分。我们建议将此信息存储在aws_secret
aws_secret_arn 类型:string 用于检索连接其他参数的密钥的 ARN。 有效的 ARN
catalog_name 类型:string-最大长度:256 包含使用驱动程序访问的数据库和表的目录。有关目录的信息,请参见DataCatalog
duration_seconds 类型:number 角色会话的持续时间(以秒为单位)。该设置可以具有 1 小时到 12 小时之间的值。默认情况下,持续时间设置为 3600 秒(1 小时)。 范围从 900 秒(15 分钟)到角色的最大会话持续时间设置不等
encryption_option 类型:枚举 [SSE_S3,, SSE_KMSCSE_KMS, null]) Amazon S3 的静态加密。请参阅 Athena 指南中的 “静态加密” 部分。 SSE_S3, SSE_KMS, CSE_KMS
kms_key 类型:string-最大长度:256 AWS KMS 如果CSE_KMS在中使用,则按键encrytion_option
poll_interval 类型:number 在 Athena 中轮询查询结果状态的时间间隔(以秒为单位)。
profile_name 类型:string-最大长度:256 应使用其凭据对向 Athena 发出的请求进行身份验证的 AWS 配置文件的名称。
region_name 类型:string 运行查询的 AWS 区域。 有效 AWS 区域
result_reuse_enable 类型:boolean 允许重复使用以前的查询结果。 true, false
result_reuse_minutes 类型:integer 以分钟为单位指定 Athena 应考虑的先前查询结果的重用最长使用期限。默认值为 60。 >=1
role_arn 类型:string 用于运行查询的角色。 有效的 ARN
schema_name 类型:string-最大长度:256 用于数据库的默认架构的名称。
s3_staging_dir 类型:string-最大长度:1024 Amazon S3 中存储查询结果的位置。 s3_staging_dirwork_group为必填项
work_group 类型:string 将运行查询的工作组。有关工作组的信息,请参阅WorkGroup ^ [a-za-z0-9._-] {1,128} $ s3_staging_dirwork_group为必填项

Snowflake 连接参数

与 Snowflake 的连接支持以下 Python AWS Glue 连接参数。

Snowflake 连接参数
类型 描述 约束 必需
account 类型:string-最大长度:256 Snowflake 账户标识符。账户标识符不包括后snowflakecomputing.com缀。
arrow_number_to_decimal 类型:boolean 默认情况下为 False,这意味着 NUMBER 列值以双精度浮点数 (float64) 的形式返回。将其设置为 True 可在调用fetch_pandas_all()fetch_pandas_batches()方法时以十进制数字 (decimal.Decimal) 的形式返回 DECIMAL 列值。 true, false
autocommit 类型:boolean 默认为false,它支持 Snowflake 参数。AUTOCOMMIT设置falsetrue或分别在会话中启用或禁用该autocommit模式。 true, false
aws_secret_arn 类型:string 用于检索连接其他参数的密钥的 ARN。 有效的 ARN
client_prefetch_threads 类型:integer 用于下载结果集的线程数(默认为 4)。增加该值可以提高读取性能,但需要更多的内存。
database 类型:string-最大长度:256 要使用的默认数据库的名称。
login_timeout 类型:integer 登录请求的超时时间(以秒为单位)。默认为 60 秒。如果 HTTP 响应不是,则登录请求将在超时长度后放弃success
network_timeout 类型:integer 所有其他操作的超时时间(以秒为单位)。默认为none(无限)。如果 HTTP 响应不是,则一般请求将在超时长度后放弃success
paramstyle 类型:string-最大长度:256 从 Python 代码执行 SQL 查询时用于参数替换的占位符语法。客户端绑pyformat定默认为。指定qmarknumeric以更改服务器端绑定的绑定变量格式。
role 类型:string-最大长度:256 要使用的默认角色的名称。
schema 类型:string-最大长度:256 用于数据库的默认架构的名称。
timezone 类型:string-最大长度:128 默认为无,它支持 Snowflake 参数。TIMEZONE设置为有效的时区(例如America/Los_Angeles)以设置会话时区。 时区格式类似于 America/Los_Angeles
validate_default_parameters 类型:boolean 设置true为可在指定的数据库、架构或仓库不存在时引发异常。默认值为 false
warehouse 类型:string-最大长度:256 要使用的默认仓库的名称。