API de control de acceso nativa y detallada de Spark incluida en la lista de permisos PySpark - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

API de control de acceso nativa y detallada de Spark incluida en la lista de permisos PySpark

Para mantener la seguridad y los controles de acceso a los datos, el control de acceso detallado (FGAC) de Spark restringe determinadas funciones. PySpark Estas restricciones se aplican mediante:

  • Bloqueo explícito que impide la ejecución de funciones

  • Incompatibilidades de arquitectura que hacen que las funciones no funcionen

  • Funciones que pueden generar errores, devolver mensajes de acceso denegado o no hacer nada al ser llamadas

El FGAC de Spark no admite las siguientes PySpark funciones:

  • Operaciones de RDD (bloqueadas con la excepción de Spark) RDDUnsupported

  • Spark Connect (no compatible)

  • Spark Streaming (no compatible)

Si bien hemos probado las funciones enumeradas en un entorno FGAC nativo de Spark y hemos confirmado que funcionan según lo esperado, nuestras pruebas suelen cubrir solo el uso básico de cada API. Las funciones con varios tipos de entrada o rutas lógicas complejas pueden tener escenarios no probados.

Para cualquier función que no figure aquí y que no forme parte claramente de las categorías no admitidas anteriores, recomendamos:

  • Pruébelas primero en un entorno gamma o en una implementación a pequeña escala

  • Verificar su comportamiento antes de usarlos en producción

nota

Si ves un método de clase en la lista pero no su clase base, el método debería seguir funcionando; solo significa que no hemos verificado explícitamente el constructor de la clase base.

La PySpark API está organizada en módulos. El soporte general para los métodos de cada módulo se detalla en la siguiente tabla.

Nombre del módulo Status Notas

pyspark_core

compatible

Este módulo contiene las principales clases de RDD y, en su mayoría, estas funciones no son compatibles.

pyspark_sql

compatible

pyspark_testing

compatible

pyspark_resource

compatible

pyspark_streaming

Blocked

El uso del streaming está bloqueado en Spark FGAC.

pyspark_mllib

Experimental

Este módulo contiene operaciones de aprendizaje automático basadas en RDD y, en su mayoría, estas funciones no son compatibles. Este módulo no se ha probado exhaustivamente.

pyspark_ml

Experimental

Este módulo contiene operaciones de aprendizaje automático DataFrame basadas en el aprendizaje automático, y estas funciones son compatibles en su mayoría. Este módulo no se ha probado exhaustivamente.

pyspark_pandas

compatible

pyspark_pandas_slow

compatible

pyspark_connect

Blocked

El uso de Spark Connect está bloqueado en Spark FGAC.

pyspark_pandas_connect

Blocked

El uso de Spark Connect está bloqueado en Spark FGAC.

pyspark_pandas_slow_connect

Blocked

El uso de Spark Connect está bloqueado en Spark FGAC.

pyspark_errors

Experimental

Este módulo no se ha probado exhaustivamente. No se pueden utilizar clases de error personalizadas.

Lista de API permitidas

Para obtener una lista descargable y más fácil de buscar, hay disponible un archivo con los módulos y las clases en las funciones de Python permitidas en el FGAC nativo.