本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在批次工作中修訂 PII
[PII]
在批次轉錄工作期間,從成績單中編輯個人識別資訊 (PII) 時, Amazon Transcribe 會在成績單的主要文字內文中取代每個識別的 PII 執行個體。您也可以檢視在轉錄輸出 word-for-word 部分中編輯的 PII 類型。如需了解輸出範例,請參閱 編輯輸出的範例 (批次處理)。
美國英文 () 和美國西班牙文 (en-US
) 可使用批次轉錄進行編輯。es-US
修訂與語言識別不相容。
已編輯和未編輯的成績單都儲存在相同的輸出值區中。 Amazon S3 Amazon Transcribe 將它們存儲在您指定的存儲桶中,或者存儲在服務管理的默認 Amazon S3 值區中。
PII 類型 | 描述 |
---|---|
ADDRESS |
實體地址,例如 100 Main Street, Anytown, USA 或 Suite #12, Building 123。地址可以包括街道、建築物、位置、城市、州、國家、縣、郵遞區號、分區、鄰里等。 |
ALL |
修訂或識別此表格中列出的所有 PII 類型。 |
BANK_ACCOUNT_NUMBER |
美國銀行帳戶號碼 這些通常介於 10-12 位數間,但是僅存在最後 4 位數字時, Amazon Transcribe 也可以識別銀行帳戶號碼。 |
BANK_ROUTING |
美國銀行帳戶的分行代碼。這些通常長 9 位數字,但是只有最後 4 位數字存在時, Amazon Transcribe 也可以識別路由號碼。 |
CREDIT_DEBIT_CVV |
VISA 上存在的 3 位數信用卡驗證碼(CVV) MasterCard,以及發現信用卡和借記卡。在美國運通信用卡或簽帳卡,是一個 4 位數的數字代碼。 |
CREDIT_DEBIT_EXPIRY |
信用卡或簽帳卡到期日 該數字通常為 4 位數,格式為月/年或 MM/YY。例如, Amazon Transcribe 可以識別到期日期,例如 2021 年 1 月 21 日、2021 年 1 月和 1 月。 |
CREDIT_DEBIT_NUMBER |
信用卡或簽帳卡號碼。這些數字的長度可以從 13 到 16 位數不等,但是當僅存在最後 4 位數字時, Amazon Transcribe 也可以識別信用卡或借記卡號碼。 |
EMAIL |
電子郵件位址,例如 efua.owusu@email.com。 |
NAME |
個人的姓名。此實體類型不包含標題,例如先生、太太、小姐或博士 Amazon Transcribe 不會將此實體類型套用至屬於組織或地址一部分的名稱。例如,將多約翰組織 Amazon Transcribe 識別為一個組織,而李四街作為一個地址。 |
PHONE |
電話號碼。此實體類型還包括傳真和呼叫器號碼。 |
PIN |
4 位數的個人識別號碼 (PIN),允許某人存取其銀行帳戶資訊。 |
SSN |
社會安全號碼(SSN)是一個 9 位數的號碼,發給美國公民,永久居民和臨時工作居民。 Amazon Transcribe 當只有最後 4 位數字時,還可以識別社會安全號碼。 |
您可以使用 AWS Management Console、 AWS CLI或 AWS SDK 開始批次轉錄工作。
-
在導覽窗格中,選擇轉錄作業,然後選擇建立作業(右上角)。這將開啟指定作業詳細資訊頁面。
-
在指定作業詳細資訊頁面中填入想要的欄位後,選擇下一步以前往設定工作 - 選用頁面。您可以在此處找到具 PII 修訂切換的內容移除面板。
-
選 PII 修訂後,您可以選擇要修訂的所有 PII 類型。如果您選擇在工作輸出中包含未修訂的文字記錄方塊,您也可以選擇有未修訂的文字記錄。
-
選擇建立作業以執行轉錄作業。
此範例使用指start-transcription-jobcontent-redaction
參數。如需詳細資訊,請參閱 StartTranscriptionJob
及 ContentRedaction
。
aws transcribe start-transcription-job \ --region
us-west-2
\ --transcription-job-namemy-first-transcription-job
\ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET
/my-input-files
/my-media-file
.flac
\ --output-bucket-nameDOC-EXAMPLE-BUCKET
\ --output-keymy-output-files
/ \ --language-codeen-US
\ --content-redaction RedactionType=PII
,RedactionOutput=redacted
,PiiEntityTypes=NAME
,ADDRESS
,BANK_ACCOUNT_NUMBER
以下是使用該start-transcription-job
aws transcribe start-transcription-job \ --region
us-west-2
\ --cli-input-json file://filepath
/my-first-redaction-job
.json
該文件 my-first-redaction-job.json 包含以下請求主體。
{ "TranscriptionJobName": "
my-first-transcription-job
", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET
/my-input-files
/my-media-file
.flac
" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET
", "OutputKey": "my-output-files
/", "LanguageCode": "en-US
", "ContentRedaction": { "RedactionOutput":"redacted
", "RedactionType":"PII", "PiiEntityTypes": [ "NAME
", "ADDRESS
", "BANK_ACCOUNT_NUMBER
" ] } }
此範例會使用使用開始ContentRedaction
引數 AWS SDK for Python (Boto3) 來編輯內容。如需詳細資訊,請參閱 StartTranscriptionJob
及 ContentRedaction
。
如需使用 AWS SDK 的其他範例,包括特定功能、案例和跨服務範例,請參閱本章。使用 的 Amazon Transcribe 程式碼範例 AWS SDKs
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', '
us-west-2
') job_name = "my-first-transcription-job
" job_uri = "s3://DOC-EXAMPLE-BUCKET
/my-input-files
/my-media-file
.flac
" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET
', OutputKey = 'my-output-files
/', LanguageCode = 'en-US
', ContentRedaction = { 'RedactionOutput':'redacted
', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME
','ADDRESS
','BANK_ACCOUNT_NUMBER
' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
注意
批次工作的 PII 編修僅支援以下範圍 AWS 區域:亞太區域 (香港)、亞太區域 (孟買)、亞太區域 (首爾)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、 GovCloud (美國西部)、加拿大 (中東)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (聖倫敦)、歐洲 (巴黎)、中東 (巴林)、美國南東 (保羅) (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡) 和美國西部 (加利佛尼亞北部)。