Redazione delle PII nel processo in batch - Amazon Transcribe

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Redazione delle PII nel processo in batch

Quando si redigono informazioni di identificazione personale (PII) da una trascrizione durante un processo di trascrizione in batch, Amazon Transcribe sostituisce ogni istanza identificata di PII con [PII] nel corpo del testo principale della trascrizione. Puoi anche visualizzare il tipo di PII che è stato oscurato nella parte dell'output della trascrizione. word-for-word Per un esempio di output, vedi Esempio di output redatto (batch).

La redazione con trascrizioni in batch è disponibile in inglese americano () e spagnolo americano ()en-US. es-US La redazione non è compatibile con l'identificazione della lingua.

Sia le trascrizioni redatte che quelle non redatte vengono archiviate nello stesso bucket di output. Amazon S3 Amazon Transcribe le memorizza in un bucket specificato dall'utente o nel bucket predefinito gestito dal servizio. Amazon S3

I tipi di PII sono riconoscibili per le Amazon Transcribe trascrizioni in batch
Tipo di PII Descrizione
ADDRESS

Un indirizzo fisico, ad esempio 100 Main Street, Anytown, USA o Suite #12, Edificio 123. Un indirizzo può includere una via, un edificio, una posizione, una città, uno stato, una nazione, una contea, un CAP, un distretto, un quartiere e altro ancora.

ALL

Redigi o identifica tutti i tipi di PII elencati in questa tabella.

BANK_ACCOUNT_NUMBER

Numero del conto bancario statunitense. In genere hanno una lunghezza compresa tra 10 e 12 cifre, ma Amazon Transcribe riconosce anche i numeri di conto bancario quando sono presenti solo le ultime 4 cifre.

BANK_ROUTING

Numero di routing del conto bancario statunitense. In genere hanno una lunghezza di 9 cifre, ma Amazon Transcribe riconosce anche i numeri di routing quando sono presenti solo le ultime 4 cifre.

CREDIT_DEBIT_CVV

Un codice di verifica della carta a 3 cifre (CVV) presente sulle carte di credito e debito VISA e Discover MasterCard. Nelle carte di credito o debito American Express, è un codice numerico a 4 cifre.

CREDIT_DEBIT_EXPIRY

Data di scadenza della carta di credito o della carta di debito. Questo numero è in genere composto da 4 cifre e il formato è mese/anno o MM/YY. Ad esempio, Amazon Transcribe può riconoscere date di scadenza come 21/01/2021, 01/2021 e gennaio 2021.

CREDIT_DEBIT_NUMBER

Numeri di carta di credito o di debito. Questi numeri possono variare da 13 a 16 cifre di lunghezza, ma riconoscono Amazon Transcribe anche i numeri delle carte di credito o di debito quando sono presenti solo le ultime 4 cifre.

EMAIL

Un indirizzo e-mail, ad esempio efua.owusu@email.com.

NAME

Il nome di una persona. Questo tipo di entità non include titoli, ad esempio Mr., Mrs., Miss o Dr.. Non Amazon Transcribe applica questo tipo di entità ai nomi che fanno parte di organizzazioni o indirizzi. Ad esempio, Amazon Transcribe riconosce la John Doe Organization come organizzazione e Jane Doe Street come indirizzo.

PHONE

Un numero di telefono. Questo tipo di entità include anche numeri di fax e cercapersone.

PIN

Un codice di identificazione personale a 4 cifre (PIN) che consente a qualcuno di accedere ai dati del proprio conto bancario.

SSN

Un numero di previdenza sociale (SSN) è un numero di 9 cifre rilasciato ai cittadini statunitensi, ai residenti permanenti e ai residenti che lavorano temporaneamente. Amazon Transcribe riconosce anche i numeri di previdenza sociale quando sono presenti solo le ultime 4 cifre.

È possibile avviare un processo di trascrizione in batch utilizzando AWS Management Console, AWS CLI o SDK. AWS

  1. Accedi alla AWS Management Console.

  2. Nel riquadro di navigazione, scegli Processi di trascrizione, quindi seleziona Crea processo (in alto a destra). Si aprirà la pagina Specifica i dettagli del processo.

  3. Dopo aver compilato i campi desiderati nella pagina Specifica i dettagli del processo, seleziona Avanti per andare alla pagina Configura lavoro - opzionale. Qui troverai il pannello di rimozione dei contenuti per attivare o disattivare la redazione delle PII.

    Amazon Transcribe schermata della console: il «pannello di rimozione dei contenuti» nella pagina «configura lavoro».
  4. Dopo aver selezionato la redazione delle PII, hai la possibilità di selezionare tutti i tipi di PII che desideri redigere. Puoi anche scegliere di avere una trascrizione non redatta se selezioni la casella Includi trascrizione non redatta nell’output del processo.

    Amazon Transcribe schermata della console: il pannello «rimozione dei contenuti» che mostra le opzioni PII.
  5. Seleziona Crea processo per eseguire il processo di trascrizione.

Questo esempio utilizza il comando e il parametro. start-transcription-jobcontent-redaction Per ulteriori informazioni, consulta StartTranscriptionJob e ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Ecco un altro esempio di utilizzo del start-transcription-jobmetodo e il corpo della richiesta redige le PII per quel processo.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

Il file my-first-redaction-job.json contiene il seguente corpo della richiesta.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

Questo esempio utilizza il AWS SDK for Python (Boto3) per redigere il contenuto utilizzando l'ContentRedactionargomento per il metodo start_transcription_job. Per ulteriori informazioni, consulta StartTranscriptionJob e ContentRedaction.

Per ulteriori esempi di utilizzo degli AWS SDK, inclusi esempi relativi a funzionalità specifiche, scenari e interservizi, consulta il capitolo. Esempi di codice per Amazon Transcribe tramite SDK AWS

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Nota

La redazione delle informazioni personali per i lavori in batch è supportata solo in Regioni AWS: Asia Pacifico (Hong Kong), Asia Pacifico (Mumbai), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), GovCloud (Stati Uniti occidentali), Canada (Centrale), UE (Francoforte), UE (Irlanda), UE (Londra), UE (Parigi), Medio Oriente (Bahrein), Sud America (San Paolo), Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon) e Stati Uniti occidentali (California settentrionale).