Uso de la transformación de cadena dividida para dividir una columna de cadena - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de la transformación de cadena dividida para dividir una columna de cadena

La transformación de cadena dividida permite dividir una cadena en una matriz de símbolos mediante una expresión regular para definir cómo se realiza la división. Luego, puede mantener la columna como un tipo de matriz o aplicar una transformación de matriz a columnas después de esta, para extraer los valores de la matriz en los campos de nivel superior, suponiendo que cada token tenga un significado que conozcamos de antemano. Además, si el orden de los símbolos es irrelevante (por ejemplo, un conjunto de categorías), puedes usar la transformación Expansión para generar una fila independiente para cada valor.

Por ejemplo, se puede dividir la columna “categorías” mediante una coma como patrón para agregar una columna “categories_arr”.

product_id categories categories_arr
1 deportes, invierno [deportes, invierno]
2 jardín, herramientas [jardín, herramientas]
3 video juegos [video juegos]
4 juego, juego de mesa, social [juego, juego de mesa, social]
Para agregar una transformación de cadena dividida, realice lo siguiente:
  1. Abra el panel de recursos y, luego, elija Cadena dividida para agregar una nueva transformación al diagrama de trabajo. El nodo seleccionado en el momento de agregar el nodo será el nodo principal.

  2. (Opcional) En la pestaña Propiedades del nodo, puede ingresar un nombre para el nodo en el diagrama de trabajo. Si todavía no se ha seleccionado un nodo principal, elija un nodo de la lista Nodos principales para utilizar como origen de entrada para la transformación.

  3. En la pestaña Transformación, elija la columna que desee dividir e ingrese el patrón que se utilizará para dividir la cadena. En la mayoría de los casos, solo tiene que ingresar los caracteres, a menos que tengan un significado especial como expresión regular y deban ocultarse. Los caracteres que hay que ocultar son: \.[]{}()<>*+-=!?^$| mediante la adición de una barra invertida delante del carácter. Por ejemplo, si desea separarlos por un punto ('.'), debe ingresar \.. Sin embargo, una coma no tiene un significado especial y se puede especificar tal cual: ,.

    La captura de pantalla muestra la pestaña Transformación de la transformación de dividir la cadena.
  4. (Opcional) Si desea conservar la columna de cadena original, puede ingresar un nombre para una nueva columna de matriz, de manera que se mantenga tanto la columna de cadena original como la nueva columna de matriz tokenizada.