문자열 분할 변환을 사용하여 문자열 열 구분 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

문자열 분할 변환을 사용하여 문자열 열 구분

문자열 분할 변환을 사용하면 정규식을 사용하여 문자열을 토큰 배열로 분할해 분할 방식을 정의할 수 있습니다. 그런 다음 각 토큰의 의미를 미리 알고 있다고 가정하고 열을 배열 유형으로 유지하거나 배열에서 열로 변환을 이 다음에 적용하여 배열 값을 상위 수준의 필드로 추출할 수 있습니다. 또한 토큰 순서가 무관한 경우(예: 카테고리 세트) 분해 변환을 사용하여 각 값에 대해 별도의 행을 생성할 수 있습니다.

예를 들어 쉼표를 패턴으로 사용하여 'categories' 열을 분할해 'categorories_arr' 열을 추가할 수 있습니다.

product_id categories categories_arr
1 sports,winter [sports, winter]
2 garden,tools [garden, tools]
3 videogames [videogames]
4 game,boardgame,social [game, boardgame, social]
문자열 분할 변환을 추가하려면:
  1. 리소스 패널을 열고 문자열 분할을 선택하여 작업 다이어그램에 새 변환을 추가합니다. 노드를 추가할 때 선택한 노드가 상위 노드가 됩니다.

  2. (선택 사항) 노드 속성 탭에서 작업 다이어그램에 노드 이름을 입력할 수 있습니다. 노드 상위 항목이 아직 선택되지 않은 경우 [노드 상위 항목(Node parents)] 목록에서 변환의 입력 소스로 사용할 노드를 선택합니다.

  3. 변환 탭에서 분할할 열을 선택하고 문자열을 분할하는 데 사용할 패턴을 입력합니다. 일반 표현식처럼 특별한 의미가 있어서 이스케이프 처리해야 하는 경우가 아니라면 대부분의 경우 문자만 입력하면 됩니다. 문자 앞에 백슬래시를 추가하여 이스케이프 처리해야 하는 문자는 \.[]{}()<>*+-=!?^$|입니다. 예를 들어 점('.')으로 구분하려면 \.를 입력해야 합니다. 하지만 쉼표는 특별한 의미가 없으므로 , 그대로 지정할 수 있습니다.

    스크린샷에는 문자열 분할 변환의 변환 탭이 나와 있습니다.
  4. (선택 사항) 원래 문자열 열을 유지하려는 경우 새 배열 열의 이름을 입력할 수 있습니다. 이렇게 하면 원래 문자열 열과 토큰화된 새 배열 열을 모두 유지할 수 있습니다.