正規化の設計図を作成する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

正規化の設計図を作成する

BDA には、特定の要件に従って抽出されたデータを変換および標準化できる正規化機能が用意されています。これらの正規化タスクは、キー正規化と値正規化に分類できます。

キーの正規化

多くの場合、ドキュメントフィールドは表現方法やラベル付け方法が異なる場合があります。例えば、「Social Security Number」フィールドは、「SSN」、「Tax ID」、「TIN」などのバリエーションとして表示されます。この課題に対応するために、BDA はキー正規化を提供します。これにより、フィールド定義内のバリエーションに関する指示を提供できます。

キー正規化を活用することで、同じフィールドの異なる表現を認識し、標準化されたキーにマッピングするように BDA をガイドできます。この機能により、ソースドキュメントに存在するバリエーションに関係なく、データが一貫して抽出および整理されます。

フィールド 手順 抽出タイプ タイプ

LastName

姓または姓

明示的

文字列

BirthNum

証明書のドキュメント番号またはファイル番号

明示的

文字列

OtherIncome

連邦政府および州のガス税、燃料税のクレジットまたは返金を含むその他の所得

明示的

数値

BusinessName

W9 を満たすビジネス、請負業者、またはエンティティの名前

明示的

文字列

力率

この使用明細項目に使用される力率または乗数

明示的

文字列

BirthPlace

子が生まれる病院または施設の名前

明示的

文字列

けがの原因

仕事との関連など、けがや職業病の原因

明示的

文字列

事前定義された値セットまたは列挙型を持つフィールドの場合、フィールド命令内で期待される値または範囲を指定できます。例に示すように、バリエーションを引用符で囲むことをお勧めします。

フィールド 手順 抽出タイプ タイプ

LICENSE_CLASS

「A」、「B」、または「C」のいずれかの 1 文字のクラスコード

明示的

文字列

性別

性別。「M」または「F」のいずれか

明示的

文字列

InformantType

情報のタイプ。「親」または「その他」のいずれか

明示的

文字列

情報収集チャネル

次のいずれか。「対面インタビュー」、「電話インタビュー」、「ファックスまたはメール」、「E メールまたはインターネット」

明示的

文字列

値の正規化

値の正規化はデータ処理パイプラインの重要なタスクであり、抽出されたデータを一貫性のある標準化された形式に変換する必要があります。このプロセスにより、ダウンストリームシステムが互換性の問題やあいまいさに遭遇することなく、シームレスにデータを消費して処理できるようになります。

BDA の正規化機能を使用すると、形式を標準化し、測定単位とキャスト値を特定のデータ型に変換できます。

値の正規化タスクでは、正規化後にドキュメントの raw テキストまたは OCR と正確に一致しない可能性があるため、推論抽出タイプを使用する必要があります。たとえば、06/25/2022YYYY-MM-DD」にフォーマットする必要がある「」のような日付値は、正規化後に「2022-06-25」として抽出されるため、ドキュメントからの OCR 出力と一致しません。

形式を標準化する: 値を短縮コード、番号付けスキーム、特定の日付形式などの事前定義された形式に変換できます。これにより、業界標準または組織の規則に従うことで、データ表現の一貫性を確保できます。

フィールド 手順 抽出タイプ タイプ

ssn

XXX-XX-XXX 形式の SSN

推定

文字列

STATE

状態の 2 文字のコード

推定

文字列

EXPIRATION_DATE

YYYY-MM-DD 形式の有効期限

推定

文字列

DATE_OF_BIRTH

YYYY-MM-DD 形式のドライバーの生年月日

推定

文字列

CHECK_DATE

チェックが署名された日付。YYYY-MM-DD への再フォーマット

推定

文字列

PurchaseDate

mm/dd/yy 形式の車両の購入日

推定

文字列

該当なしなどのシナリオを処理することで、値を標準の測定単位または特定のデータ型に変換することもできます。

フィールド 手順 抽出タイプ タイプ

重量

ポンドに変換された重み

推定

数値

高さ

高さを インチに変換

推定

数値

nonqualified_plans_income

フィールド 11 の値。N/A の場合は 0。

推定

数値