Usando detecção de fala tóxica em uma transcrição em lote Exemplo de saída

Usando a detecção de fala tóxica

Usando detecção de fala tóxica em uma transcrição em lote

Para usar a detecção de fala tóxica com uma transcrição em lote, veja exemplos a seguir:

Faça login no AWS Management Console.
No painel de navegação, escolhaTrabalhos de transcriçãoe, em seguida, selecioneCriar emprego(canto superior direito). Isso abre oEspecifique os detalhes do trabalhopágina.
Sobre oEspecifique os detalhes do trabalhopágina, você também pode ativar a redação de PII, se quiser. Observe que as outras opções listadas não são compatíveis com a detecção de toxicidade. Selecione Próximo. Isso leva você para oConfigurar tarefa - opcionalpágina. NoConfigurações de áudiopainel, selecioneDetecção de toxicidade.
SelecionarCriar empregopara executar seu trabalho de transcrição.
Quando seu trabalho de transcrição estiver concluído, você poderá fazer o download da transcrição noBaixarmenu suspenso na página de detalhes do trabalho de transcrição.

Este exemplo usa ostart-transcription-jobcomando eToxicityDetectionparâmetro. Para ter mais informações, consulte StartTranscriptionJob e ToxicityDetection.



aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \
--output-bucket-name DOC-EXAMPLE-BUCKET \
--output-key my-output-files/ \
--language-code en-US \
--toxicity-detection ToxicityCategories=ALL

Aqui está outro exemplo usando ostart-transcription-jobcomando e um corpo de solicitação que inclui detecção de toxicidade.



aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://filepath/my-first-toxicity-job.json

O arquivomy-first-toxicity-job.jsoncontém o seguinte corpo da solicitação.



{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "DOC-EXAMPLE-BUCKET",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "ToxicityDetection": [ 
      { 
         "ToxicityCategories": [ "ALL" ]
      }
   ]
}

Este exemplo usa oAWS SDK for Python (Boto3)para habilitarToxicityDetectionpara ostart_transcription_jobmétodo. Para ter mais informações, consulte StartTranscriptionJob e ToxicityDetection.

Para obter exemplos adicionais usando oAWSOs SDKs, incluindo exemplos específicos de recursos, cenários e serviços cruzados, referem-se aoExemplos de código para o Amazon Transcribe usando SDKs AWScapítulo.



from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'DOC-EXAMPLE-BUCKET',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    ToxicityDetection = [ 
        { 
            'ToxicityCategories': ['ALL']
        }
    ]
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Exemplo de saída

A fala tóxica é marcada e categorizada em sua saída de transcrição. Cada instância de fala tóxica é categorizada e atribuída a uma pontuação de confiança (um valor entre 0 e 1). Um valor de confiança maior indica uma maior probabilidade de que o conteúdo seja uma fala tóxica dentro da categoria especificada.

A seguir está um exemplo de saída no formato JSON que mostra fala tóxica categorizada com pontuações de confiança associadas.



{
    "jobName": "my-toxicity-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [...],
        "items":[...],
        "toxicity_detection": [
            {
                "text": "What the * are you doing man? That's why I didn't want to play with your * .  man it was a no, no I'm not calming down * man. I well I spent I spent too much * money on this game.",
                "toxicity": 0.7638,
                "categories": {
                    "profanity": 0.9913,
                    "hate_speech": 0.0382,
                    "sexual": 0.0016,
                    "insult": 0.6572,
                    "violence_or_threat": 0.0024,
                    "graphic": 0.0013,
                    "harassment_or_abuse": 0.0249
                },
                "start_time": 8.92,
                "end_time": 21.45
            },
            Items removed for brevity
            {
                "text": "What? Who? What the * did you just say to me? What's your address? What is your * address? I will pull up right now on your * * man. Take your * back to , tired of this **.",
                "toxicity": 0.9816,
                "categories": {
                    "profanity": 0.9865,
                    "hate_speech": 0.9123,
                    "sexual": 0.0037,
                    "insult": 0.5447,
                    "violence_or_threat": 0.5078,
                    "graphic": 0.0037,
                    "harassment_or_abuse": 0.0613
                },
                "start_time": 43.459,
                "end_time": 54.639
            },
        ]
    },
    ...
    "status": "COMPLETED"
}

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Detectando fala tóxica

Redação de transcrições