数据处理选项 - Amazon Redshift

数据处理选项

本主题介绍如何配置 Redshift Spectrum 采用何种方式来处理意外格式的数据。

您可以在创建外部表时设置表参数,以定制需在外部表中查询的数据。否则,可能会发生扫描错误。有关更多信息,请参阅CREATE EXTERNAL TABLE中的 TABLE PROPERTIES。有关示例,请参阅数据处理示例。有关错误的列表,请参阅SVL_SPECTRUM_SCAN_ERROR

创建外部表时,可以设置以下 TABLE PROPERTIES,以便为外部表中查询的数据指定输入处理。

  • 使用 column_count_mismatch_handling,以便确定文件包含的行值是否小于或大于外部表定义中指定的列数。

  • 使用 invalid_char_handling,以便为包含 VARCHAR、CHAR 和字符串数据的列中的无效字符指定输入处理。当您为 invalid_char_handling 指定 REPLACE 时,您可以指定要使用的替换字符。

  • 使用 numeric_overflow_handling,以便为包含整数和十进制数据的列指定转换溢出处理。

  • surplus_bytes_handling 为包含 VARBYTE 数据的列中的超额字节指定输入处理。

  • 使用 surplus_char_handling,以便为包含 VARCHAR、CHAR 和字符串数据的列中的多余字符指定输入处理。

您可以设置配置选项来取消超过最大错误数的查询。有关更多信息,请参阅 spectrum_query_maxerror