Utilisation de la détection de discours toxiques - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de la détection de discours toxiques

Utilisation de la détection de discours toxiques dans une transcription par lots

Pour utiliser la détection de discours toxiques avec une transcription par lots, consultez les exemples suivants :

  1. Connectez-vous à AWS Management Console.

  2. Dans le volet de navigation, choisissezTâches de transcription, puis sélectionnezCréer un emploi(en haut à droite). Cela ouvre leSpécifier les détails de la tâchepage.

    Amazon Transcribecapture d'écran de la console : la page « Spécifier les détails de la tâche ».
  3. Sur leSpécifier les détails de la tâchepage, vous pouvez également activer la rédaction des informations personnelles si vous le souhaitez. Notez que les autres options répertoriées ne sont pas prises en charge avec la détection de la toxicité. Sélectionnez Suivant. Cela vous amène auConfigurer la tâche : facultatifpage. Dans leRéglages audiopanneau, sélectionnezDétection de toxicité.

    Amazon Transcribecapture d'écran de la console : la page « Configurer la tâche ».
  4. SélectionnezCréer un emploipour exécuter votre travail de transcription.

  5. Une fois votre travail de transcription terminé, vous pouvez télécharger votre transcription à partir duTéléchargermenu déroulant sur la page détaillée de la tâche de transcription.

Cet exemple utilise lestart-transcription-jobcommande etToxicityDetectionparamètre. Pour plus d'informations, consultez StartTranscriptionJob et ToxicityDetection.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --toxicity-detection ToxicityCategories=ALL

Voici un autre exemple utilisant lestart-transcription-jobcommande, et un organisme de demande qui inclut la détection de la toxicité.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-toxicity-job.json

Le dossiermy-first-toxicity-job.jsoncontient le corps de requête suivant.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ToxicityDetection": [ { "ToxicityCategories": [ "ALL" ] } ] }

Cet exemple utilise leAWS SDK for Python (Boto3)pour activerToxicityDetectionpour ledémarre_transcription_jobméthode. Pour plus d'informations, consultez StartTranscriptionJob et ToxicityDetection.

Pour des exemples supplémentaires utilisant leAWSLes kits SDK, y compris des exemples spécifiques aux fonctionnalités, des scénarios et des exemples interservices, se réfèrent auExemples de code pour Amazon Transcribe à l'aide de AWS SDKschapitre.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ToxicityDetection = [ { 'ToxicityCategories': ['ALL'] } ] ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Exemple de sortie

Les discours toxiques sont étiquetés et catégorisés dans votre sortie de transcription. Chaque instance de discours toxique est classée et un score de confiance (une valeur comprise entre 0 et 1) lui est attribué. Une valeur de confiance plus élevée indique une plus grande probabilité que le contenu soit un discours toxique relevant de la catégorie spécifiée.

Voici un exemple de sortie au format JSON montrant un discours toxique classé avec les scores de confiance associés.

{ "jobName": "my-toxicity-job", "accountId": "111122223333", "results": { "transcripts": [...], "items":[...], "toxicity_detection": [ { "text": "What the * are you doing man? That's why I didn't want to play with your * . man it was a no, no I'm not calming down * man. I well I spent I spent too much * money on this game.", "toxicity": 0.7638, "categories": { "profanity": 0.9913, "hate_speech": 0.0382, "sexual": 0.0016, "insult": 0.6572, "violence_or_threat": 0.0024, "graphic": 0.0013, "harassment_or_abuse": 0.0249 }, "start_time": 8.92, "end_time": 21.45 }, Items removed for brevity { "text": "What? Who? What the * did you just say to me? What's your address? What is your * address? I will pull up right now on your * * man. Take your * back to , tired of this **.", "toxicity": 0.9816, "categories": { "profanity": 0.9865, "hate_speech": 0.9123, "sexual": 0.0037, "insult": 0.5447, "violence_or_threat": 0.5078, "graphic": 0.0037, "harassment_or_abuse": 0.0613 }, "start_time": 43.459, "end_time": 54.639 }, ] }, ... "status": "COMPLETED" }