Análisis de una columna de cadena que contiene datos JSON - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Análisis de una columna de cadena que contiene datos JSON

Esta transformación analiza una columna de cadena que contiene datos JSON y la convierte en una estructura o una columna de matriz, en función de si el JSON es un objeto o una matriz, respectivamente. Si lo desea, puede conservar tanto la columna analizada como la original.

El esquema JSON se puede proporcionar o deducir (en el caso de los objetos de JSON), con un muestreo opcional.

Para agregar un nodo de transformación de columnas JSON de análisis al diagrama de trabajo
  1. Abra el panel de recursos y, luego, elija Analizar columna JSON para agregar una nueva transformación al diagrama de trabajo. El nodo seleccionado en el momento de agregar el nodo será el nodo principal.

  2. (Opcional) En la pestaña propiedades del nodo, puede ingresar un nombre para el nodo en el diagrama de trabajo. Si todavía no está seleccionado un nodo principal, elija un nodo de la lista Node parents (Nodos principales) para utilizar como origen de entrada para la transformación.

  3. En la pestaña Transformación, selecciona la columna que contiene la cadena JSON.

  4. (Opcional) En la pestaña Transformación, ingrese el esquema que siguen los datos de JSON con la sintaxis SQL, por ejemplo: “field1 STRING, field2 INT” en el caso de un objeto o “ARRAY<STRING>” en el caso de una matriz.

    Si se trata de una matriz, se requiere el esquema, pero en el caso de un objeto, si no se especifica el esquema, se deducirá a partir de los datos. Para reducir el impacto de inferir el esquema (especialmente en un conjunto de datos grande), puede evitar leer los datos completos dos veces. Para ello, ingrese una proporción de muestras que se utilizará para inferir el esquema. Si el valor es inferior a 1, se utiliza la proporción correspondiente de muestras aleatorias para deducir el esquema. Si los datos son fiables y el objeto es concordante entre las filas, se puede utilizar una proporción pequeña como 0,1 para mejorar el rendimiento.

  5. (Opcional) En la pestaña Transformación, se puede ingresar un nombre de columna nuevo si desea conservar tanto la columna de cadena original como la columna analizada.