建立標準化藍圖 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立標準化藍圖

BDA 提供標準化功能,可讓您根據您的特定需求轉換和標準化擷取的資料。這些標準化任務可以分類為金鑰標準化和值標準化。

金鑰標準化

在許多情況下,文件欄位的呈現或標記方式可能有所不同。例如,「社會安全號碼」欄位可以顯示為「SSN」、「稅務 ID」、「TIN」或其他類似的變化。為了解決此挑戰,BDA 提供金鑰標準化,可讓您提供有關欄位定義內變化的說明。

透過利用金鑰標準化,您可以引導 BDA 辨識並映射相同欄位的不同表示法至標準化金鑰。此功能可確保資料持續擷取和組織,無論來源文件中是否存在變化。

欄位 指示 擷取類型 Type

LastName

人員的姓氏或姓氏

明確

字串

BirthNum

生產憑證的文件號碼或檔案號碼

明確

字串

OtherIncome

其他收入,包括聯邦和州油費或油費抵免或退稅

明確

Number

BusinessName

填寫 W9 的企業、承包商或實體名稱

明確

字串

功率因數

用於此用量明細項目的功率因數或乘數

明確

字串

BirthPlace

兒童出生的醫院或機構名稱

明確

字串

傷害原因

傷害或職業疾病的原因,包括其運作方式

明確

字串

對於具有預先定義值集或列舉的欄位,您可以在欄位指示中提供預期的值或範圍。我們建議您在引號中包含變化,如範例所示。

欄位 指示 擷取類型 Type

LICENSE_CLASS

單一字母類別代碼,「A」、「B」或「C」其中之一

明確

字串

性別

性別。「M」或「F」之一

明確

字串

InformantType

資訊的類型。「父」或「其他」之一

明確

字串

資訊收集管道

下列其中一項:「面對面訪談」、「電話訪談」、「傳真或郵件」、「電子郵件或網際網路」

明確

字串

值標準化

值標準化是資料處理管道中的關鍵任務,其中擷取的資料需要轉換為一致且標準化的格式。此程序可確保下游系統可以順暢地使用和處理資料,而不會遇到相容性問題或模棱兩可的情況。

在 BDA 中使用標準化功能,您可以標準化格式、轉換度量單位,並將值轉換為特定資料類型。

對於值標準化任務,應該使用推斷的擷取類型,因為在標準化之後,該值可能不完全符合文件的原始文字或 OCR。例如,06/25/2022需要格式化為 "YYYY-MM-DD" 的日期值會在標準化後擷取為 "2022-06-25",因此不符合文件中的 OCR 輸出。

標準化格式:您可以將值轉換為預先定義的格式,例如縮短的代碼、編號配置或特定日期格式。這可讓您遵循產業標準或組織慣例,以確保資料呈現的一致性。

欄位 指示 擷取類型 Type

ssn

SSN,格式為 XXX-XX-XXX

推斷

字串

STATE

狀態的兩個字母代碼

推斷

字串

EXPIRATION_DATE

到期日期,格式為 YYYY-MM-DD

推斷

字串

DATE_OF_BIRTH

驅動程式的出生日期,格式為 YYYY-MM-DD

推斷

字串

CHECK_DATE

檢查簽署的日期。重新格式化為 YYYY-MM-DD

推斷

字串

PurchaseDate

車輛購買日期,格式為 mm/dd/yy

推斷

字串

您也可以透過處理類似不適用的案例,將值轉換為標準度量單位或轉換為特定資料類型。

欄位 指示 擷取類型 Type

加權

權重轉換為井字號

推斷

Number

高度

高度轉換為 英吋

推斷

Number

nonqualified_plans_income

欄位 11.0 中的值,如果為 N/A。

推斷

Number