¿S3 Select es adecuado para mi aplicación?Consideraciones Especificación de S3 Select

Uso de S3 Select con Spark para mejorar el rendimiento de las consultas

importante

Amazon S3 Select ya no está disponible para los nuevos clientes. Los clientes actuales de Amazon S3 Select pueden seguir utilizando la característica de la forma habitual. Más información

Con la versión 5.17.0 y posteriores de Amazon EMR, puede usar S3 Select con Spark en Amazon EMR. S3 Select permite que las aplicaciones recuperen únicamente un subconjunto de datos de un objeto. Para Amazon EMR, el clúster “delega” en Amazon S3 el trabajo de computación de filtrar grandes conjuntos de datos para su procesamiento, lo que puede mejorar el rendimiento en algunas aplicaciones y reduce la cantidad de datos transferidos entre Amazon EMR y Amazon S3.

S3 Select es compatible con los archivos JSON y CSV si se utilizan los valores s3selectCSV y s3selectJSON para especificar el formato de los datos. Para obtener más información y ejemplos, consulta Especificación de S3 Select en el código.

¿S3 Select es adecuado para mi aplicación?

Le recomendamos que realice un análisis comparativo sus aplicaciones con y sin S3 Select para ver si su uso puede ser adecuado para su aplicación.

Utilice las siguientes directrices para determinar si la aplicación es candidata a utilizar S3 Select:

La consulta filtra más de la mitad del conjunto de datos original.
La conexión de red entre Amazon S3 y el clúster de Amazon EMR tiene una buena velocidad de transferencia y ancho de banda disponible. Amazon S3 no comprime las respuestas HTTP, por lo que es probable que el tamaño de la respuesta aumente en el caso de los archivos de entrada comprimidos.

Consideraciones y limitaciones

No se admiten el cifrado del servidor de Amazon S3 con claves de cifrado proporcionadas por el cliente (SSE-C) ni el cifrado del cliente.
No se admite la propiedad AllowQuotedRecordDelimiters. Si se especifica esta propiedad, se producirá un error en la consulta.
Solo se admiten archivos CSV y JSON en formato UTF-8. No se admiten las líneas múltiples. CSVs
Solo se admiten los archivos sin comprimir o gzip.
No se admiten opciones de JSON y CSV en Spark como, por ejemplo nanValue, positiveInf, negativeInf y las opciones relacionadas con los registros dañados (por ejemplo, failfast y el modo dropmalformed).
El uso de comas (,) dentro de los decimales no se admite. Por ejemplo, 10,000 no se admite, pero sí se admite 10000.
No se admiten los caracteres de comentario en la última línea.
Las líneas vacías al final de un archivo no se procesan.
Los siguientes filtros no se delegan en Amazon S3:
- Funciones de agregación como COUNT() y SUM().
- Filtros que aplican CAST() a un atributo. Por ejemplo, CAST(stringColumn as INT) = 1.
- Filtros con un atributo que es un objeto o es complejo. Por ejemplo, intArray[1] = 1, objectColumn.objectNumber = 1.
- Filtros cuyo valor no es un valor literal. Por ejemplo, intColumn1 = intColumn2
- Solo se admiten los tipos de datos compatibles con S3 Select con las limitaciones que se especifican.

Especificación de S3 Select en el código

Los siguientes ejemplos muestran cómo especificar S3 Select para CSV mediante Scala, SQL, R y PySpark. Puede utilizar S3 Select para JSON de la misma manera. Para obtener una lista de las opciones, sus valores predeterminados y sus limitaciones, consulte Opciones.

Opciones

Las siguientes opciones están disponibles cuando se utilizan s3selectCSV y s3selectJSON. Si no se especifican, se usarán los valores predeterminados.

Opciones con S3selectCSV

Opción	Predeterminado/a	Uso
`compression`	`"none"`	Indica si se utiliza la compresión. `"gzip"` es la única opción admitida además de `"none"`.
`delimiter`	","	Especifica el delimitador de campo.
`quote`	`'\"'`	Especifica el carácter de comillas. No es posible especificar una cadena vacía. Si lo hace, se mostrará un error que indica que el XML no tiene el formato correcto.
`escape`	`'\\'`	Especifica el carácter de escape.
`header`	`"false"`	`"false"` especifica que no existe ningún encabezado. `"true"` especifica que hay un encabezado en la primera línea. Solo se admiten los encabezados en la primera línea, y no se admiten las líneas vacías antes del encabezado.
comentario	`"#"`	Especifica el carácter de comentario. El indicador de comentario no se puede deshabilitar. En otras palabras, no se admite el valor `\u0000`.
`nullValue`	""

Opciones con S3selectJSON

Opción	Predeterminado/a	Uso
`compression`	`"none"`	Indica si se utiliza la compresión. `"gzip"` es la única opción admitida además de `"none"`.
`multiline`	"false"	`"false"` especifica que el JSON está en el formato `LINES` de S3 Select, lo que significa que cada línea de los datos de entrada contiene un único objeto JSON. `"true"` especifica que el JSON está en el formato `DOCUMENT` de S3 Select, lo que significa que un objeto JSON pueden abarcar varias líneas en los datos de entrada.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Mejora del rendimiento de Spark con S3

CHISPA EMR MagicCommitProtocol