本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立標準化藍圖
BDA 提供標準化功能,可讓您根據您的特定需求轉換和標準化擷取的資料。這些標準化任務可以分類為金鑰標準化和值標準化。
金鑰標準化
在許多情況下,文件欄位的呈現或標記方式可能有所不同。例如,「社會安全號碼」欄位可以顯示為「SSN」、「稅務 ID」、「TIN」或其他類似的變化。為了解決此挑戰,BDA 提供金鑰標準化,可讓您提供有關欄位定義內變化的說明。
透過利用金鑰標準化,您可以引導 BDA 辨識並映射相同欄位的不同表示法至標準化金鑰。此功能可確保資料持續擷取和組織,無論來源文件中是否存在變化。
欄位 | 指示 | 擷取類型 | Type |
---|---|---|---|
LastName |
人員的姓氏或姓氏 |
明確 |
字串 |
BirthNum |
生產憑證的文件號碼或檔案號碼 |
明確 |
字串 |
OtherIncome |
其他收入,包括聯邦和州油費或油費抵免或退稅 |
明確 |
Number |
BusinessName |
填寫 W9 的企業、承包商或實體名稱 |
明確 |
字串 |
功率因數 |
用於此用量明細項目的功率因數或乘數 |
明確 |
字串 |
BirthPlace |
兒童出生的醫院或機構名稱 |
明確 |
字串 |
傷害原因 |
傷害或職業疾病的原因,包括其運作方式 |
明確 |
字串 |
對於具有預先定義值集或列舉的欄位,您可以在欄位指示中提供預期的值或範圍。我們建議您在引號中包含變化,如範例所示。
欄位 | 指示 | 擷取類型 | Type |
---|---|---|---|
LICENSE_CLASS |
單一字母類別代碼,「A」、「B」或「C」其中之一 |
明確 |
字串 |
性別 |
性別。「M」或「F」之一 |
明確 |
字串 |
InformantType |
資訊的類型。「父」或「其他」之一 |
明確 |
字串 |
資訊收集管道 |
下列其中一項:「面對面訪談」、「電話訪談」、「傳真或郵件」、「電子郵件或網際網路」 |
明確 |
字串 |
值標準化
值標準化是資料處理管道中的關鍵任務,其中擷取的資料需要轉換為一致且標準化的格式。此程序可確保下游系統可以順暢地使用和處理資料,而不會遇到相容性問題或模棱兩可的情況。
在 BDA 中使用標準化功能,您可以標準化格式、轉換度量單位,並將值轉換為特定資料類型。
對於值標準化任務,應該使用推斷的擷取類型,因為在標準化之後,該值可能不完全符合文件的原始文字或 OCR。例如,06/25/2022需要格式化為 "YYYY-MM-DD" 的日期值會在標準化後擷取為 "2022-06-25",因此不符合文件中的 OCR 輸出。
標準化格式:您可以將值轉換為預先定義的格式,例如縮短的代碼、編號配置或特定日期格式。這可讓您遵循產業標準或組織慣例,以確保資料呈現的一致性。
欄位 | 指示 | 擷取類型 | Type |
---|---|---|---|
ssn |
SSN,格式為 XXX-XX-XXX |
推斷 |
字串 |
STATE |
狀態的兩個字母代碼 |
推斷 |
字串 |
EXPIRATION_DATE |
到期日期,格式為 YYYY-MM-DD |
推斷 |
字串 |
DATE_OF_BIRTH |
驅動程式的出生日期,格式為 YYYY-MM-DD |
推斷 |
字串 |
CHECK_DATE |
檢查簽署的日期。重新格式化為 YYYY-MM-DD |
推斷 |
字串 |
PurchaseDate |
車輛購買日期,格式為 mm/dd/yy |
推斷 |
字串 |
您也可以透過處理類似不適用的案例,將值轉換為標準度量單位或轉換為特定資料類型。
欄位 | 指示 | 擷取類型 | Type |
---|---|---|---|
加權 |
權重轉換為井字號 |
推斷 |
Number |
高度 |
高度轉換為 英吋 |
推斷 |
Number |
nonqualified_plans_income |
欄位 11.0 中的值,如果為 N/A。 |
推斷 |
Number |