Expurgation des PII (données d’identification personnelle) dans votre tâche par lots - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Expurgation des PII (données d’identification personnelle) dans votre tâche par lots

Lorsque vous supprimez des informations personnelles identifiables (PII) d'une transcription lors d'un travail de transcription par lots, remplacez Amazon Transcribe chaque instance identifiée de PII par le corps du texte principal de votre transcription. [PII] Vous pouvez également afficher le type de PII qui est expurgé dans la word-for-word partie de la sortie de transcription. Pour un exemple de sortie, consultez la section Exemple de sortie expurgée (lot).

La rédaction avec transcriptions par lots est disponible en anglais américain (en-US) et en espagnol américain (es-US). L’expurgation n’est pas compatible avec l’identification des langues.

Les transcriptions expurgées et non expurgées sont stockées dans le même compartiment de sortie. Amazon S3 Amazon Transcribe les stocke dans un compartiment que vous spécifiez ou dans le Amazon S3 compartiment par défaut géré par le service.

Les types de données personnelles que Amazon Transcribe vous pouvez reconnaître pour les transcriptions par lots
Type de PII Description
ADDRESS

Adresse physique, telle que 100 Main Street, Anytown, États-Unis ou Suite n°12, bâtiment 123. Une adresse peut inclure une rue, un bâtiment, un emplacement, une ville, un état, un pays, un comté, un code postal, une circonscription, un quartier, etc.

ALL

Expurgez ou identifiez tous les types de PII répertoriés dans ce tableau.

BANK_ACCOUNT_NUMBER

Numéro du compte bancaire aux États-Unis. Il s’agit généralement d’un numéro composé de 10 à 12 chiffres, mais Amazon Transcribe reconnaît également les numéros de compte bancaire lorsque seuls les 4 derniers chiffres sont présents.

BANK_ROUTING

Numéro d’acheminement du compte bancaire aux États-Unis. Il s’agit généralement d’un numéro à 9 chiffres, mais Amazon Transcribe reconnaît également les numéros de routage lorsque seuls les 4 derniers chiffres sont présents.

CREDIT_DEBIT_CVV

Code de vérification de carte (CVV) à 3 chiffres présent sur les cartes de crédit et de débit VISA et Discover. MasterCard Sur les cartes de crédit ou de débit American Express, il s’agit d’un code numérique à 4 chiffres.

CREDIT_DEBIT_EXPIRY

Date d’expiration d’une carte de crédit ou de débit. Ce numéro comporte généralement 4 chiffres et est au format mois/année ou MM/AA. Par exemple, Amazon Transcribe peut reconnaître des dates d'expiration telles que le 21/01, le 01/2021 et le 1er janvier 2021.

CREDIT_DEBIT_NUMBER

Numéro de carte de crédit ou de débit. La longueur de ces numéros peut varier de 13 à 16 chiffres, mais ils reconnaissent Amazon Transcribe également les numéros de carte de crédit ou de débit lorsque seuls les 4 derniers chiffres sont présents.

EMAIL

Adresse e-mail, telle que efua.owusu@email.com.

NAME

Nom d’une personne. Ce type d'entité n'inclut pas les titres, tels que M., Mme, Miss ou Dr. Il Amazon Transcribe n'applique pas ce type d'entité aux noms qui font partie d'organisations ou d'adresses. Par exemple, Amazon Transcribe reconnaît l'organisation John Doe en tant qu'organisation et Jane Doe Street en tant qu'adresse.

PHONE

Numéro de téléphone. Ce type d’entité inclut également les numéros de télécopieur et de pager.

PIN

Numéro d’identification personnel (PIN) à 4 chiffres qui permet à une personne d’accéder aux informations de son compte bancaire.

SSN

Un numéro de sécurité sociale (SSN) est un numéro à 9 chiffres délivré aux citoyens américains, aux résidents permanents et aux résidents actifs temporaires. Amazon Transcribe reconnaît également les numéros de sécurité sociale lorsque seuls les 4 derniers chiffres sont présents.

Vous pouvez démarrer une tâche de transcription par lots à l'aide du AWS Management Console ou du AWS SDK. AWS CLI

  1. Connectez-vous à la AWS Management Console.

  2. Dans le volet de navigation, choisissez Tâches de transcription, puis sélectionnez Créer une tâche (en haut à droite). La page Spécifier les détails de la tâche s’ouvre.

  3. Après avoir rempli les champs souhaités sur la page Spécifier les détails de la tâche, sélectionnez Suivant pour accéder à la page Configurer la tâche - facultatif. Vous y trouverez le volet Suppression de contenu avec le bouton à bascule Expurgation des PII.

    Amazon Transcribe capture d'écran de la console : le « volet de suppression de contenu » sur la page « configurer le travail ».
  4. Une fois que vous avez sélectionné Expurgation des PII, vous pouvez sélectionner tous les types de PII que vous souhaitez expurger. Vous pouvez également choisir d’avoir une transcription non expurgée si vous sélectionnez la zone Inclure la transcription non expurgée dans la sortie de la tâche.

    Amazon Transcribe capture d'écran de la console : le volet « suppression de contenu » affichant les options PII.
  5. Sélectionnez Créer une tâche pour exécuter votre tâche de transcription.

Cet exemple utilise la start-transcription-jobcommande et le content-redaction paramètre. Pour plus d’informations, consultez StartTranscriptionJob et ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Voici un autre exemple d'utilisation de start-transcription-jobcette méthode, et le corps de la demande expurge les informations personnelles pour cette tâche.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

Le fichier my-first-redaction-job.json contient le corps de requête suivant.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

Cet exemple utilise le AWS SDK for Python (Boto3) pour supprimer du contenu à l'aide de l'ContentRedactionargument de la méthode start_transcription_job. Pour plus d’informations, consultez StartTranscriptionJob et ContentRedaction.

Pour d'autres exemples d'utilisation AWS des SDK, notamment des exemples spécifiques aux fonctionnalités, des scénarios et des exemples multiservices, reportez-vous au chapitre. Exemples de code pour Amazon Transcribe à l'aide de AWS SDKs

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Note

La rédaction d'informations personnelles pour les tâches par lots n'est prise en charge que dans les pays suivants Régions AWS : Asie-Pacifique (Hong Kong), Asie-Pacifique (Mumbai), Asie-Pacifique (Séoul), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), (États-Unis ouest), Canada GovCloud (centre), UE (Francfort), UE (Irlande), UE (Londres), UE (Paris), Moyen-Orient (Bahreïn), Amérique du Sud (Sao Paulo), États-Unis Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon) et USA Ouest (Californie du Nord).