배치 작업의 PII 편집 - Amazon Transcribe

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

배치 작업의 PII 편집

일괄 트랜스크립션 작업 중에 트랜스크립트에서 개인 식별 정보 (PII) 를 삭제하는 경우 식별된 각 PII 인스턴스를 트랜스크립트의 본문에 있는 [PII] 것으로 Amazon Transcribe 대체합니다. 트랜스크립션 출력 부분에서 수정된 PII의 유형도 볼 수 있습니다. word-for-word 출력 샘플은 편집된 출력 예제 (일괄 처리)를 참조하세요.

일괄 트랜스크립션을 통한 교정은 미국 영어 (en-US) 및 미국 스페인어 () 로 제공됩니다. es-US 수정은 언어 식별과 호환되지 않습니다.

편집된 성적표와 수정되지 않은 대본은 모두 동일한 출력 버킷에 저장됩니다. Amazon S3 Amazon Transcribe 지정한 버킷 또는 서비스에서 관리하는 기본 Amazon S3 버킷에 저장합니다.

일괄 트랜스크립션을 위해 Amazon Transcribe 인식할 수 있는 PII 유형
PII 유형 설명
ADDRESS

실제 주소(예: 100 Main Street, Anytown, USA 또는 Suite #12, Building 123). 주소에는 거리, 건물, 위치, 도시, 주, 국가, 카운티, 우편번호, 구역, 지역 등의 정보가 포함될 수 있습니다.

ALL

이 테이블에 나열된 모든 PII 유형을 편집하거나 식별합니다.

BANK_ACCOUNT_NUMBER

미국 은행 계좌 번호. 일반적으로 10~12자리 길이이지만 Amazon Transcribe 는 마지막 4자리만 있으면 은행 계좌 번호도 인식합니다.

BANK_ROUTING

미국 은행 계좌 라우팅 번호. 일반적으로 9자리 길이이지만 Amazon Transcribe 는 마지막 4자리만 있으면 라우팅 번호도 인식합니다.

CREDIT_DEBIT_CVV

VISA와 Discover 신용카드 및 직불카드에 있는 3자리 카드 확인 코드 (CVV). MasterCard 아메리칸 익스프레스 신용카드나 직불카드의 경우 4자리 숫자 코드입니다.

CREDIT_DEBIT_EXPIRY

신용카드 또는 직불카드 만료 날짜. 이 숫자는 보통 4자리 숫자이며, 월/년 또는 MM/YY 형식으로 지정됩니다. 예를 들어, 01/21, 2021년 1월 등의 만료일을 Amazon Transcribe 인식할 수 있습니다.

CREDIT_DEBIT_NUMBER

신용카드 또는 직불카드 번호. 이 번호의 길이는 13~16자리까지 다양하지만 마지막 4자리만 있는 경우 신용카드 또는 직불카드 Amazon Transcribe 번호도 인식합니다.

EMAIL

이메일 주소(예: efua.owusu@email.com).

NAME

개인의 이름. 이 개체 유형에는 Mr., Mrs., Miss 또는 Dr.와 같은 직함은 포함되지 Amazon Transcribe 않습니다. 또는 Dr.는 조직 또는 주소의 일부인 이름에는 이 개체 유형을 적용하지 않습니다. 예를 들어, John Doe 조직을 조직으로 Amazon Transcribe 인식하고 Jane Doe Street를 주소로 인식합니다.

PHONE

전화번호. 이 엔터티 유형에는 팩스 및 호출기 번호도 포함됩니다.

PIN

다른 사람이 자신의 은행 계좌 정보에 액세스할 수 있도록 하는 4자리 개인 식별 번호(PIN).

SSN

사회보장번호 (SSN) 는 미국 시민권자, 영주권자, 임시 근로 거주자에게 발급되는 9자리 숫자입니다. Amazon Transcribe 또한 마지막 4자리만 있는 경우 사회보장번호를 인식합니다.

AWS Management Console AWS CLI, 또는 SDK를 사용하여 일괄 트랜스크립션 작업을 시작할 수 있습니다. AWS

  1. AWS Management Console에 로그인합니다.

  2. 탐색 창에서 트랜스크립션 작업을 선택한 다음 작업 생성(오른쪽 상단)을 선택합니다. 그러면 작업 세부 정보 지정 페이지가 열립니다.

  3. 작업 세부 정보 지정 페이지에서 원하는 필드를 채운 후 다음을 선택하여 작업 구성 - 선택 사항 페이지로 이동합니다. 여기에서 PII 수정 토글이 있는 콘텐츠 제거 패널을 찾을 수 있습니다.

    Amazon Transcribe 콘솔 스크린샷: '작업 구성' 페이지의 '콘텐츠 제거 창'
  4. PII 수정을 선택하면 편집하려는 모든 PII 유형을 선택할 수 있습니다. 또한 작업 출력에 편집되지 않은 트랜스크립트 포함을 선택하면 편집되지 않은 트랜스크립트가 포함되도록 선택할 수 있습니다.

    Amazon Transcribe 콘솔 스크린샷: PII 옵션을 보여주는 '콘텐츠 제거' 창.
  5. 작업 생성을 선택하여 트랜스크립션 작업을 실행합니다.

이 예제에서는 명령과 매개변수를 사용합니다. start-transcription-jobcontent-redaction 자세한 내용은 StartTranscriptionJobContentRedaction 섹션을 참조하세요.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

다음은 start-transcription-job메서드를 사용하는 또 다른 예시입니다. 요청 본문은 해당 작업에 대한 PII를 수정합니다.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

my-first-redaction-job.json 파일에는 다음과 같은 요청 본문이 포함되어 있습니다.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

이 예제에서는 AWS SDK for Python (Boto3) 를 사용하여 start_transcription_job 메서드의 ContentRedaction 인수를 사용하여 내용을 수정합니다. 자세한 내용은 StartTranscriptionJobContentRedaction 섹션을 참조하세요.

기능별, 시나리오 및 크로스 서비스 예제를 포함하여 AWS SDK를 사용하는 추가 예제는 이 장을 참조하십시오. SDK를 사용한 Amazon Transcribe의 코드 예제 AWS

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
참고

일괄 작업에 대한 PII 수정은 아시아 태평양 (홍콩), 아시아 태평양 (뭄바이), 아시아 태평양 (서울), 아시아 태평양 (싱가포르), 아시아 태평양 (시드니), 아시아 태평양 (도쿄), (미국 서부), 캐나다 GovCloud (중부), EU (프랑크푸르트), EU (아일랜드), EU (런던), EU (파리), 중동 (바레인), 남아메리카 (사오) 에서만 지원됩니다. 파울로), 미국 동부 (버지니아 북부), 미국 동부 (오하이오), 미국 서부 (오레곤), 미국 서부 (캘리포니아 북부) AWS 리전