기계 학습 기반 분석을 위한 워크플로 - Amazon Chime SDK

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 학습 기반 분석을 위한 워크플로

다음 섹션에서는 Amazon Chime SDK 통화 분석에서 제공하는 기계 학습 분석 기능을 사용하는 방법을 설명합니다.

참고

동일한 Kinesis Video Stream에서 여러 기계 학습 분석을 실행하려는 경우, 비디오 스트림의 GetMediaGetMediaForFragmentList에 대한 연결 수준 제한을 늘려야 할 수 있습니다. 자세한 내용은 Amazon Kinesis Video Streams 개발자 안내서에서 Kinesis Video Streams 제한을 참조하세요.

다음과 같은 경우 이 워크플로를 사용하세요.

  • 콘솔 기반 설정이 필요합니다.

  • 이미 음성 커넥터를 사용 중이거나 사용할 계획이며 SIP 미디어를 통화 분석에 사용할 계획입니다. 음성 커넥터는 SIP뿐만 아니라 SIPREC도 지원합니다. 음성 커넥터 구성에 대한 자세한 내용은 Amazon Chime SDK 음성 커넥터 관리를 참조하세요.

  • 모든 음성 커넥터 호출에 동일한 미디어 인사이트 구성을 적용하고 싶습니다.

  • Amazon Chime SDK 음성 분석을 사용해야 하며, 이를 위해서는 음성 커넥터 또는 미디어 인사이트 파이프라인이 필요합니다.

Amazon Chime SDK 콘솔에서 이 워크플로를 사용 설정하려면 통화 분석을 사용하도록 음성 커넥터 구성에서 녹음 구성을 만드는 단계를 따르세요.

프로그래밍 방식으로 이 워크플로를 활성화하려면 CreateMediaInsightsPipelineConfigurationAPI를 사용하여 통화 분석 구성을 만든 다음 API를 사용하여 음성 커넥터에 구성을 연결하세요. PutVoiceConnectorStreamingConfiguration 자세한 내용은 Amazon Chime SDK 관리자 안내서음성 분석을 사용하도록 음성 커넥터 구성을 참조하세요.

다음 다이어그램은 음성 커넥터가 통화 분석 세션을 시작할 때의 데이터 흐름을 보여줍니다. 다이어그램의 숫자는 아래 번호가 매겨진 텍스트에 해당합니다.

Image showing the flow of data when a Voice Connector initiates a call.

다이어그램에서

  1. Amazon Chime SDK 콘솔 또는 CreateMediaInsightsPipelineConfigurationAPI를 사용하여 미디어 인사이트 파이프라인 구성을 생성합니다.

  2. Amazon Chime SDK 콘솔 또는 PutVoiceConnectorStreamingConfigurationAPI를 사용하여 구성을 음성 커넥터와 연결합니다. 기존 구성을 음성 커넥터와 연결하려면 Amazon Chime SDK 관리자 안내서통화 분석을 사용하도록 음성 커넥터 구성을 참조하세요.

  3. 발신 통화 중에 음성 커넥터는 각 통화 참가자의 음성을 수신합니다.

  4. 통화 분석과의 기본 통합으로 인해 통화 분석 구성이 음성 커넥터에 첨부되어 있으면 음성 커넥터 서비스가 미디어 파이프라인 서비스를 사용하여 통화 분석 세션을 시작합니다.

  5. 미디어 파이프라인 서비스는 구성에 지정된 대로 하나 이상의 미디어 프로세서를 호출합니다.

  6. 미디어 파이프라인 서비스는 구성에 따라 출력 데이터를 하나 이상의 대상으로 전송합니다. 예를 들어 Amazon Kinesis Data Streams을 통해 실시간 분석을 전송할 수 있으며, 구성된 경우 Amazon S3 데이터 웨어하우스로 호출 메타데이터와 분석을 전송할 수 있습니다.

  7. 미디어 파이프라인 서비스는 파이프라인 상태 이벤트를 기본 Amazon에 보냅니다 EventBridge. 규칙을 구성한 경우 해당 규칙에 대한 알림도 EventBridge Amazon으로 전송됩니다. 자세한 내용은 EventBridge 알림 사용을 참조하십시오.

참고

음성 커넥터 통화 데이터를 몇 시간에서 몇 년까지 다양한 기간 동안 Kinesis Video Streams에 저장할 수 있습니다. 데이터 보존 안 함을 선택하면 통화 데이터를 즉시 사용할 수 있는 기능이 제한됩니다. Kinesis Video Streams의 비용은 사용된 대역폭과 총 스토리지에 따라 결정됩니다. 음성 커넥터의 스트리밍 구성을 편집하여 언제든지 데이터 보존 기간을 조정할 수 있습니다. 통화 분석 녹화를 활성화하려면 통화 분석이 완료될 때까지 Kinesis Video Stream이 데이터를 보존하는지 확인해야 합니다. 적절한 데이터 보존 기간을 지정하면 됩니다.

미디어 인사이트 파이프라인 구성을 원하는 수만큼 음성 커넥터와 연결할 수 있습니다. 각 음성 커넥터에 대해 서로 다른 구성을 만들 수도 있습니다. 음성 커넥터는 AWSServiceRoleForAmazonChimeVoiceConnector 를 사용하여 거래 ID당 한 번씩 사용자를 대신하여 CreateMediaInsightsPipelineAPI를 호출합니다. 역할에 대한 자세한 내용은 Amazon Chime SDK 관리자 안내서에서 Amazon Chime SDK 음성 커넥터에 대한 Amazon Chime SDK 서비스 연동형 역할 사용을 참조하세요.

음성 커넥터를 사용하지만 통화 분석 구성을 적용하는 시기와 구성을 적용할 통화를 제어해야 하는 경우 이 워크플로를 사용하세요.

이 방법을 사용하려면 Voice Connector가 게시하는 이벤트의 EventBridge 대상을 만든 다음 이벤트를 사용하여 통화 분석 파이프라인 API를 트리거해야 합니다. 자세한 내용은 Amazon Chime SDK 관리자 안내서의 Amazon Chime SDK EventBridge 자동화를 참조하십시오.

다음 다이어그램은 음성 커넥터로 통화 분석을 사용할 때 보다 세분화된 제어를 구현하는 방법을 보여줍니다. 다이어그램의 숫자는 아래 텍스트의 숫자와 일치합니다.

음성 커넥터와 함께 API 호출을 사용할 때의 데이터 흐름을 보여주는 이미지입니다.

다이어그램에서

  1. Amazon Chime SDK 콘솔 또는 CreateMediaInsightsPipelineConfigurationAPI를 사용하여 미디어 인사이트 파이프라인 구성을 생성합니다.

  2. 발신 통화 중에 음성 커넥터는 참가자의 음성을 수신합니다.

  3. 음성 커넥터는 통화 오디오를 Kinesis Video Stream으로 보내고 해당 이벤트는 에 보냅니다. EventBridge 이러한 이벤트에는 스트림 및 통화 메타데이터가 있습니다.

  4. 애플리케이션은 타겟을 EventBridge EventBridge 통해 구독됩니다.

  5. 애플리케이션은 Amazon Chime CreateMediaInsightsPipelineSDK API를 호출합니다.

  6. 미디어 파이프라인 서비스는 미디어 인사이트 파이프라인 구성의 프로세서 요소를 기반으로 하나 이상의 미디어 프로세서를 호출합니다.

  7. 미디어 파이프라인 서비스는 구성에 따라 출력 데이터를 하나 이상의 대상으로 전송합니다. Amazon Chime SDK 통화 분석은 Amazon Kinesis Data Stream을 통해 실시간 분석을 제공하며, 구성된 경우 Amazon S3 데이터 웨어하우스에 대한 호출 메타데이터 분석을 제공합니다.

  8. 미디어 파이프라인 서비스가 Amazon에 이벤트를 EventBridge 전송합니다. 규칙을 구성한 경우 해당 규칙에 대한 알림도 EventBridge Amazon으로 전송됩니다.

  9. API를 호출하여 통화 분석 세션을 일시 중지하거나 재개할 수 있습니다. UpdateMediaInsightsPipelineStatus

    참고

    통화 레코딩은 통화 일시 중지 및 재개를 지원하지 않습니다. 또한 세션을 일시 중지하면 해당 통화에 대해 시작된 음성 분석 작업도 중지됩니다. 다시 시작하려면 StartSpeakerSearchTask또는 StartVoiceToneAnalyisTaskAPI를 호출해야 합니다.

  10. 구성 중에 음성 톤 분석을 선택한 경우 StartSpeakerSearchTask또는 StartVoiceToneAnalyisTaskAPI를 호출하여 음성 분석을 시작합니다.

이 옵션을 사용하려면 오디오 데이터를 Kinesis Video Streams (KVS) 에 게시한 다음 KVS 스트림 채널 정보와 함께 API를 CreateMediaInsightsPipeline호출해야 합니다.

참고

통화 분석 API는 최대 2개의 오디오 채널을 지원합니다.

CreateMediaInsightsPipelineAPI를 호출할 때 각 KVS 스트림 채널 정의에 프래그먼트 번호를 지정할 수 있습니다. 프래그먼트 번호를 제공하면 통화 분석이 해당 프래그먼트에서 스트림 처리를 시작합니다. 그렇지 않으면 통화 분석이 사용 가능한 최신 프래그먼트에서 스트림을 처리하기 시작합니다.

통화 분석은 오디오 샘플 속도가 8kHz~48kHz 사이인 PCM 오디오(WAV는 포함되지 않는 서명된 16비트 리틀 엔디안 오디오 형식만 지원)를 지원합니다. 전화 오디오와 같은 저품질 오디오는 일반적으로 약 8,000Hz입니다. 고품질 오디오의 범위는 일반적으로 16,000Hz에서 48,000Hz입니다. 지정하는 샘플 레이트는 오디오의 샘플 레이트와 일치해야 합니다. 자세한 내용은 Amazon Chime SDK API 레퍼런스를 참조하십시오 KinesisVideoStreamSourceRuntimeConfiguration.

Kinesis Video Streams 프로듀서 SDK는 오디오 데이터를 Kinesis Video Stream으로 스트리밍하는 데 사용할 수 있는 라이브러리 세트를 제공합니다. 자세한 내용은 Amazon Kinesis Video Streams 개발자 안내서에서 Kinesis Video Streams 생산자 라이브러리를 참조하세요.

다음 다이어그램은 사용자 지정 Kinesis Video Stream 프로듀서와 함께 통화 분석을 사용할 때의 데이터 흐름을 보여줍니다. 다이어그램의 숫자는 아래 번호가 매겨진 텍스트에 해당합니다.

Kinesis Video Stream 프로듀서와의 통화 분석을 사용할 때의 데이터 흐름을 보여주는 이미지입니다.
  1. AWS 콘솔 또는 CreateMediaInsightsPipelineConfigurationAPI를 사용하여 미디어 인사이트 파이프라인 구성을 생성합니다.

  2. Kinesis Video Stream 프로듀서를 사용하여 Kinesis Video Stream에 오디오를 쓸 수 있습니다.

  3. 애플리케이션이 CreateMediaInsightsPipelineAPI를 호출합니다.

  4. 미디어 파이프라인 서비스는 고객의 Kinesis Video Streams에서 오디오를 읽습니다.

  5. 미디어 파이프라인 서비스가 Amazon에 이벤트를 EventBridge 전송합니다. 규칙을 구성한 경우 해당 규칙에 대한 알림도 EventBridge Amazon으로 전송됩니다.

  6. 미디어 파이프라인 서비스는 하나 이상의 프로세서 요소를 호출합니다.

  7. 미디어 파이프라인 서비스는 출력 데이터를 하나 이상의 싱크 요소로 전송합니다.

  8. API를 호출하여 통화 분석 세션을 일시 중지하거나 재개할 수 있습니다. UpdateMediaInsightsPipelineStatus

    참고

    통화 레코딩은 일시 중지 및 재개를 지원하지 않습니다.

  9. 애플리케이션은 Amazon EventBridge 이벤트를 처리하여 사용자 지정 비즈니스 워크플로를 트리거할 수 있습니다.

  10. 구성을 생성할 때 음성 분석을 선택하면 애플리케이션에서 StartSpeakerSearchTask또는 StartVoiceToneAnalyisTaskAPI를 호출하여 음성 분석을 시작할 수 있습니다.