翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
正規化の設計図を作成する
BDA には、特定の要件に従って抽出されたデータを変換および標準化できる正規化機能が用意されています。これらの正規化タスクは、キー正規化と値正規化に分類できます。
キーの正規化
多くの場合、ドキュメントフィールドは表現方法やラベル付け方法が異なる場合があります。例えば、「Social Security Number」フィールドは、「SSN」、「Tax ID」、「TIN」などのバリエーションとして表示されます。この課題に対応するために、BDA はキー正規化を提供します。これにより、フィールド定義内のバリエーションに関する指示を提供できます。
キー正規化を活用することで、同じフィールドの異なる表現を認識し、標準化されたキーにマッピングするように BDA をガイドできます。この機能により、ソースドキュメントに存在するバリエーションに関係なく、データが一貫して抽出および整理されます。
フィールド | 手順 | 抽出タイプ | タイプ |
---|---|---|---|
LastName |
姓または姓 |
明示的 |
文字列 |
BirthNum |
証明書のドキュメント番号またはファイル番号 |
明示的 |
文字列 |
OtherIncome |
連邦政府および州のガス税、燃料税のクレジットまたは返金を含むその他の所得 |
明示的 |
数値 |
BusinessName |
W9 を満たすビジネス、請負業者、またはエンティティの名前 |
明示的 |
文字列 |
力率 |
この使用明細項目に使用される力率または乗数 |
明示的 |
文字列 |
BirthPlace |
子が生まれる病院または施設の名前 |
明示的 |
文字列 |
けがの原因 |
仕事との関連など、けがや職業病の原因 |
明示的 |
文字列 |
事前定義された値セットまたは列挙型を持つフィールドの場合、フィールド命令内で期待される値または範囲を指定できます。例に示すように、バリエーションを引用符で囲むことをお勧めします。
フィールド | 手順 | 抽出タイプ | タイプ |
---|---|---|---|
LICENSE_CLASS |
「A」、「B」、または「C」のいずれかの 1 文字のクラスコード |
明示的 |
文字列 |
性別 |
性別。「M」または「F」のいずれか |
明示的 |
文字列 |
InformantType |
情報のタイプ。「親」または「その他」のいずれか |
明示的 |
文字列 |
情報収集チャネル |
次のいずれか。「対面インタビュー」、「電話インタビュー」、「ファックスまたはメール」、「E メールまたはインターネット」 |
明示的 |
文字列 |
値の正規化
値の正規化はデータ処理パイプラインの重要なタスクであり、抽出されたデータを一貫性のある標準化された形式に変換する必要があります。このプロセスにより、ダウンストリームシステムが互換性の問題やあいまいさに遭遇することなく、シームレスにデータを消費して処理できるようになります。
BDA の正規化機能を使用すると、形式を標準化し、測定単位とキャスト値を特定のデータ型に変換できます。
値の正規化タスクでは、正規化後にドキュメントの raw テキストまたは OCR と正確に一致しない可能性があるため、推論抽出タイプを使用する必要があります。たとえば、06/25/2022YYYY-MM-DD」にフォーマットする必要がある「」のような日付値は、正規化後に「2022-06-25」として抽出されるため、ドキュメントからの OCR 出力と一致しません。
形式を標準化する: 値を短縮コード、番号付けスキーム、特定の日付形式などの事前定義された形式に変換できます。これにより、業界標準または組織の規則に従うことで、データ表現の一貫性を確保できます。
フィールド | 手順 | 抽出タイプ | タイプ |
---|---|---|---|
ssn |
XXX-XX-XXX 形式の SSN |
推定 |
文字列 |
STATE |
状態の 2 文字のコード |
推定 |
文字列 |
EXPIRATION_DATE |
YYYY-MM-DD 形式の有効期限 |
推定 |
文字列 |
DATE_OF_BIRTH |
YYYY-MM-DD 形式のドライバーの生年月日 |
推定 |
文字列 |
CHECK_DATE |
チェックが署名された日付。YYYY-MM-DD への再フォーマット |
推定 |
文字列 |
PurchaseDate |
mm/dd/yy 形式の車両の購入日 |
推定 |
文字列 |
該当なしなどのシナリオを処理することで、値を標準の測定単位または特定のデータ型に変換することもできます。
フィールド | 手順 | 抽出タイプ | タイプ |
---|---|---|---|
重量 |
ポンドに変換された重み |
推定 |
数値 |
高さ |
高さを インチに変換 |
推定 |
数値 |
nonqualified_plans_income |
フィールド 11 の値。N/A の場合は 0。 |
推定 |
数値 |