[文字列の分割] 変換を使用して、正規表現の文字列をトークンの配列に分割し、分割方法を定義します。その後、列を配列型のままにするか、この後に [配列から列へ] 変換を適用して、配列の値を抽出し最上位のフィールドに追加できます。ただし、各トークンの意味が事前にわかっていることが前提です。また、カテゴリのセットなどトークンの順序が関係ない場合、[分解] 変換を使用して値ごとに個別の行を生成できます。
例えば、カンマを分割のパターンとして使用して「categories」列を分割し、「categories_arr」列を追加できます。
product_id | カテゴリ | categories_arr |
---|---|---|
1 | sports,winter | [sports, winter] |
2 | garden,tools | [garden, tools] |
3 | videogames | [videogames] |
4 | game,boardgame,social | [game, boardgame, social] |
[文字列の分割] 変換を追加するには:
-
リソースパネルを開いて、[Split String] を選択し、ジョブ図に新しい変換を追加します。ノードを追加する際に選択したノードが、その親になります。
-
(オプション) [Node properties] (ノードのプロパティ) タブで、ジョブ図にノードの名前を入力できます。ノードの親がまだ選択されていない場合は、[Node parents] (ノードの親) リストから、変換の入力ソースとして使用するノードを選択します。
-
[変換] タブで、分割する列を選択して文字列の分割に使用するパターンを入力します。ほとんどの場合、正規表現として特別な意味がありエスケープする必要がある場合を除いて、文字を入力するだけで済みます。エスケープする必要がある文字は
\.[]{}()<>*+-=!?^$|
で、文字の前にバックスラッシュを追加することでエスケープできます。例えば、ドット (「.」) で区切る場合は、「\.
」と入力する必要があります。ただし、カンマには特別な意味はなく、「,
」のようにそのまま指定できます。 -
(オプション) 元の文字列の列を保持したい場合は、新しい配列の列の名前を入力できます。これにより、元の文字列の列と新しいトークン化された配列の列の両方が保持できます。