StartStreamTranscription - 변환

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

StartStreamTranscription

양방향 HTTP/2 또는 오디오를 애플리케이션으로 스트리밍하고 트랜스크립션 결과를 애플리케이션으로 WebSocket 스트리밍하는 양방향 HTTP/2 또는 스트림을 시작하여 오디오를 애플리케이션으로 스트리밍할 수 있는 양방향 HTTP/2 또는 스트림을 시작하여 오디오를 애플리케이션으로 스트리밍할 수 있는 양방향 HTTP/2

다음 파라미터는 필수 파라미터입니다.

  • language-code 또는 identify-language

  • media-encoding

  • sample-rate

Amazon Transcribe를 사용한 스트리밍에 대한 자세한 내용은 스트리밍 오디오 텍스트 변환을 참조하십시오.

요청 구문

POST /stream-transcription HTTP/2 x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-vocabulary-name: VocabularyName x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification x-amzn-transcribe-number-of-channels: NumberOfChannels x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization x-amzn-transcribe-partial-results-stability: PartialResultsStability x-amzn-transcribe-content-identification-type: ContentIdentificationType x-amzn-transcribe-content-redaction-type: ContentRedactionType x-amzn-transcribe-pii-entity-types: PiiEntityTypes x-amzn-transcribe-language-model-name: LanguageModelName x-amzn-transcribe-identify-language: IdentifyLanguage x-amzn-transcribe-language-options: LanguageOptions x-amzn-transcribe-preferred-language: PreferredLanguage x-amzn-transcribe-vocabulary-names: VocabularyNames x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames Content-type: application/json { "AudioStream": { "AudioEvent": { "AudioChunk": blob } } }

URI 요청 파라미터

요청은 다음의 URI 파라미터를 사용합니다.

ContentIdentificationType

트랜스크립트에 표시된 모든 개인 식별 정보 (PII) 에 라벨을 붙입니다.

콘텐츠 식별은 세그먼트 수준에서 수행되며, 에 지정된PiiEntityTypes PII는 오디오 세그먼트가 완전히 변환되면 플래그가 지정됩니다.

동일한ContentRedactionType 요청에서ContentIdentificationType 및 를 설정할 수 없습니다. 둘 다 설정한 경우 요청은 a를 반환합니다BadRequestException.

자세한 내용은 개인 식별 정보 수정 또는 식별을 참조하십시오.

유효한 값: PII

ContentRedactionType

트랜스크립트에서 식별된 모든 개인 식별 정보 (PII) 를 삭제합니다.

콘텐츠 편집은 세그먼트 수준에서 수행되며, 에 지정된PiiEntityTypes PII는 오디오 세그먼트가 완전히 변환되면 수정됩니다.

동일한ContentIdentificationType 요청에서ContentRedactionType 및 를 설정할 수 없습니다. 둘 다 설정한 경우 요청은 a를 반환합니다BadRequestException.

자세한 내용은 개인 식별 정보 수정 또는 식별을 참조하십시오.

유효한 값: PII

EnableChannelIdentification

멀티 채널 오디오에서 채널 식별을 활성화합니다.

채널 식별은 각 채널의 오디오를 개별적으로 변환한 다음 각 채널의 출력을 하나의 트랜스크립트에 추가합니다.

다중 채널 오디오가 있고 채널 식별을 활성화하지 않은 경우 오디오는 연속적으로 변환되며 트랜스크립트는 채널별로 구분되지 않습니다.

요청에 포함시키는EnableChannelIdentification 경우 포함시켜야 합니다NumberOfChannels.

자세한 내용은 다중 채널 오디오 텍스트 변환을 참조하십시오.

EnablePartialResultsStabilization

트랜스크립션의 결과를 부분적으로 안정화할 수 있습니다. 부분적인 결과 안정화는 출력의 지연 시간을 줄일 수 있지만 정확도에 영향을 줄 수 있습니다. 자세한 내용은 부분 결과 안정화를 참조하십시오.

IdentifyLanguage

트랜스크립션에 대한 자동 언어 식별을 활성화합니다.

를 포함하는IdentifyLanguage 경우 오디오 스트림에 있을 것으로 생각되는 언어 코드 목록을 선택적으로 포함할 수 있습니다.LanguageOptions 언어 옵션을 포함하면 필사 정확도가 향상될 수 있습니다.

을 사용하여 선호하는 언어를 포함시킬 수도PreferredLanguage 있습니다. 기본 언어를 추가하면 이 파라미터를 생략할 때보다 Amazon Transcribe에서 언어를 더 빨리 식별할 수 있습니다.

채널마다 다른 언어를 포함하는 다중 채널 오디오가 있고 채널 식별을 활성화한 경우 자동 언어 식별을 통해 각 오디오 채널의 주요 언어를 식별합니다.

요청에LanguageCode 또는IdentifyLanguage 중 하나를 포함해야 한다는 점에 유의하십시오. 두 파라미터를 모두 포함하면 요청이 실패합니다.

스트리밍 언어 식별은 사용자 지정 언어 모델 또는 편집과 결합할 수 없습니다.

LanguageCode

오디오에서 사용되는 언어를 나타내는 언어 코드를 지정합니다.

오디오에서 사용되는 언어가 확실하지 않은 경우 를 사용하여 자동 언어 식별을IdentifyLanguage 활성화하는 것을 고려해 보십시오.

Amazon Transcribe 스트리밍에서 지원되는 언어 목록은 지원되는 언어 표를 참조하십시오.

유효한 값: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

LanguageModelName

트랜스크립션을 처리할 때 사용할 사용자 지정 언어 모델의 이름을 지정합니다. 언어 모델 이름은 대/소문자를 구분합니다.

지정된 언어 모델의 언어는 트랜스크립션 요청에서 지정한 언어 코드와 일치해야 합니다. 언어가 일치하지 않으면 사용자 지정 언어 모델이 적용되지 않습니다. 언어 불일치와 관련된 오류나 경고는 없습니다.

자세한 내용은 사용자 지정 언어 모델 단원을 참조하십시오.

길이 제약: 최소 길이는 1입니다. 최대 길이는 200입니다.

패턴: ^[0-9a-zA-Z._-]+

LanguageOptions

미디어에 있을 것으로 생각되는 언어를 나타내는 언어 코드를 두 개 이상 지정하십시오. 5개 이상은 포함하지 않는 것이 좋습니다. 어떤 언어가 있는지 잘 모르겠으면 이 매개 변수를 포함하지 마세요.

언어 옵션을 포함하면 언어 식별의 정확도를 높일 수 있습니다.

요청에 포함시키는LanguageOptions 경우 포함시켜야 합니다IdentifyLanguage.

Amazon Transcribe 스트리밍에서 지원되는 언어 목록은 지원되는 언어 표를 참조하십시오.

중요

스트림당 하나의 언어 방언만 포함할 수 있습니다. 예를 들어, 동일한 요청에en-USen-AU 를 포함할 수 없습니다.

길이 제약: 최소 길이는 1입니다. 최대 길이는 200입니다.

패턴: ^[a-zA-Z-,]+

MediaEncoding

입력 오디오의 인코딩을 지정합니다. 지원되는 형식:

  • FLAC

  • Ogg 컨테이너의 Opus 인코딩 오디오

  • PCM (부호가 있는 16비트 리틀 엔디안 오디오 형식만 해당, WAV는 포함되지 않음)

자세한 내용은 미디어 형식을 참조하십시오.

유효한 값: pcm | ogg-opus | flac

필수 항목 여부: 예

MediaSampleRateHertz

입력 오디오의 샘플 레이트 (헤르츠 단위). 전화 오디오와 같은 저품질 오디오는 일반적으로 약 8,000Hz입니다. 고품질 오디오의 범위는 일반적으로 16,000Hz에서 48,000Hz입니다. 지정한 샘플 속도는 오디오의 샘플 속도와 일치해야 합니다.

유효한 범위: 최소값은 8000입니다. 최대값은 48000입니다.

필수 항목 여부: 예

NumberOfChannels

오디오 스트림의 채널 수를 지정합니다. 두 채널만2 지원되므로 이 값은 이어야 합니다. 오디오에 여러 채널이 포함되어 있지 않은 경우 요청에 이 매개변수를 포함하지 마세요.

요청에 포함시키는NumberOfChannels 경우 포함시켜야 합니다EnableChannelIdentification.

유효한 범위: 최소값은 2입니다.

PartialResultsStability

부분 결과 안정화 (EnablePartialResultsStabilization) 를 활성화할 때 사용할 안정성 수준을 지정합니다.

낮은 안정성은 최고의 정확도를 제공합니다. 안정성이 높으면 전사 속도는 빨라지지만 정확도는 약간 떨어집니다.

자세한 내용은 부분 결과 안정화를 참조하십시오.

유효한 값: high | medium | low

PiiEntityTypes

성적표에서 삭제할 개인 식별 정보 (PII) 유형을 지정하십시오. 유형을 원하는 만큼 포함하거나 선택할 수 있습니다ALL.

요청에PiiEntityTypes 포함하려면ContentIdentificationType 또는 중 하나도 포함해야 합니다ContentRedactionType.

값은 쉼표로 구분해야 하며ADDRESS,,,,BANK_ACCOUNT_NUMBER,BANK_ROUTING,CREDIT_DEBIT_CVV,CREDIT_DEBIT_EXPIRY,CREDIT_DEBIT_NUMBER,EMAILNAMEPHONEPINSSN, 또는 를 포함할 수ALL 있습니다.

길이 제약: 최소 길이는 1입니다. 최대 길이는 300입니다.

패턴: ^[A-Z_, ]+

PreferredLanguage

에서 지정한 언어 코드의 하위 집합에서 기본 언어를 지정합니다LanguageOptions.

요청에IdentifyLanguageLanguageOptions 를 포함한 경우에만 이 파라미터를 사용할 수 있습니다.

유효한 값: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

SessionId

트랜스크립션 세션의 이름을 지정하십시오. 요청에 이 파라미터를 포함하지 않는 경우 Amazon Transcribe는 ID를 생성하여 응답에 반환합니다.

길이 제약 조건: 고정 길이는 363입니다.

패턴: [a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}

ShowSpeakerLabel

트랜스크립션 출력에서 스피커 파티셔닝 (다이어리제이션) 을 활성화합니다. 스피커 파티셔닝은 미디어 파일에 있는 개별 스피커의 음성에 레이블을 지정합니다.

자세한 내용은 스피커 파티셔닝 (다이어리) 을 참조하십시오.

VocabularyFilterMethod

성적표에 어휘 필터를 적용할 방법을 지정하세요.

단어를 로*** 바꾸려면 를 선택합니다mask.

단어를 삭제하려면 을 선택합니다remove.

단어를 변경하지 않고 플래그를 지정하려면 을 선택합니다tag.

유효한 값: remove | mask | tag

VocabularyFilterName

트랜스크립션을 처리할 때 사용할 사용자 지정 어휘 필터의 이름을 지정합니다. 단, 어휘 필터 이름은 대/소문자를 구분합니다.

지정된 사용자 지정 어휘 필터의 언어가 미디어에서 식별된 언어와 일치하지 않는 경우 어휘 필터는 트랜스크립션에 적용되지 않습니다.

중요

이 매개변수는 매개변수와 함께 사용하기 위한 것이 IdentifyLanguage아닙니다. 요청에 포함시키고IdentifyLanguage 트랜스크립션에 하나 이상의 어휘 필터를 사용하려는 경우VocabularyFilterNames 파라미터를 대신 사용하세요.

자세한 내용은 원하지 않는 단어에 어휘 필터링 사용하기를 참조하십시오.

길이 제약: 최소 길이는 1입니다. 최대 길이는 200입니다.

패턴: ^[0-9a-zA-Z._-]+

VocabularyFilterNames

트랜스크립션을 처리할 때 사용할 사용자 지정 어휘 필터의 이름을 지정합니다. 단, 어휘 필터 이름은 대/소문자를 구분합니다.

지정한 사용자 지정 어휘 필터의 언어가 미디어에서 식별된 언어와 일치하지 않는 경우 작업이 실패합니다.

중요

이 매개변수는 매개변수와 함께 사용하기 위한 용도로만 사용됩니다.IdentifyLanguage 요청에 포함하지 않고IdentifyLanguage 트랜스크립션에 사용자 지정 어휘 필터를 사용하려는 경우VocabularyFilterName 파라미터를 대신 사용하세요.

자세한 내용은 원하지 않는 단어에 어휘 필터링 사용하기를 참조하십시오.

길이 제약: 최소 길이는 1입니다. 최대 길이는 3000입니다.

패턴: ^[a-zA-Z0-9,-._]+

VocabularyName

트랜스크립션을 처리할 때 사용할 사용자 지정 어휘의 이름을 지정하십시오. 참고로 어휘 이름은 대/소문자를 구분합니다.

지정한 사용자 지정 어휘의 언어가 미디어에서 식별된 언어와 일치하지 않는 경우 사용자 지정 어휘는 트랜스크립션에 적용되지 않습니다.

중요

이 매개변수는 매개변수와 함께 사용하기 위한 것이 IdentifyLanguage아닙니다. 요청에 포함시키고IdentifyLanguage 트랜스크립션에 하나 이상의 사용자 지정 어휘를 사용하려면VocabularyNames 파라미터를 대신 사용하세요.

자세한 내용은 사용자 지정 어휘를 참조하십시오.

길이 제약: 최소 길이는 1입니다. 최대 길이는 200입니다.

패턴: ^[0-9a-zA-Z._-]+

VocabularyNames

트랜스크립션을 처리할 때 사용할 사용자 지정 어휘의 이름을 지정하십시오. 참고로 어휘 이름은 대/소문자를 구분합니다.

지정된 사용자 지정 어휘의 언어가 미디어에서 식별된 언어와 일치하지 않으면 작업이 실패합니다.

중요

이 매개변수는 매개변수와 함께 사용하기 위한 용도로만 사용됩니다.IdentifyLanguage 요청에 포함하지 않고IdentifyLanguage 트랜스크립션에 사용자 지정 어휘를 사용하려면VocabularyName 파라미터를 대신 사용하세요.

자세한 내용은 사용자 지정 어휘를 참조하십시오.

길이 제약: 최소 길이는 1입니다. 최대 길이는 3000입니다.

Pattern: ^[a-zA-Z0-9,-._]+

요청 본문

요청은 JSON 형식의 다음 데이터를 받습니다.

AudioStream

인코딩된 오디오 블롭 스트림입니다. 오디오 스트림은 HTTP/2 또는 WebSocket 데이터 프레임으로 인코딩됩니다.

자세한 내용은 스트리밍 오디오 텍스트 변환을 참조하십시오.

유형: AudioStream 객체

필수 항목 여부: 예

응답 구문

HTTP/2 200 x-amzn-request-id: RequestId x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-vocabulary-name: VocabularyName x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification x-amzn-transcribe-number-of-channels: NumberOfChannels x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization x-amzn-transcribe-partial-results-stability: PartialResultsStability x-amzn-transcribe-content-identification-type: ContentIdentificationType x-amzn-transcribe-content-redaction-type: ContentRedactionType x-amzn-transcribe-pii-entity-types: PiiEntityTypes x-amzn-transcribe-language-model-name: LanguageModelName x-amzn-transcribe-identify-language: IdentifyLanguage x-amzn-transcribe-language-options: LanguageOptions x-amzn-transcribe-preferred-language: PreferredLanguage x-amzn-transcribe-vocabulary-names: VocabularyNames x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames Content-type: application/json { "TranscriptResultStream": { "BadRequestException": { }, "ConflictException": { }, "InternalFailureException": { }, "LimitExceededException": { }, "ServiceUnavailableException": { }, "TranscriptEvent": { "Transcript": { "Results": [ { "Alternatives": [ { "Entities": [ { "Category": "string", "Confidence": number, "Content": "string", "EndTime": number, "StartTime": number, "Type": "string" } ], "Items": [ { "Confidence": number, "Content": "string", "EndTime": number, "Speaker": "string", "Stable": boolean, "StartTime": number, "Type": "string", "VocabularyFilterMatch": boolean } ], "Transcript": "string" } ], "ChannelId": "string", "EndTime": number, "IsPartial": boolean, "LanguageCode": "string", "LanguageIdentification": [ { "LanguageCode": "string", "Score": number } ], "ResultId": "string", "StartTime": number } ] } } } }

응답 요소

작업이 성공하면 서비스가 HTTP 200 응답을 다시 전송합니다.

응답에 다음 HTTP 헤더가 반환됩니다.

ContentIdentificationType

트랜스크립션에 콘텐츠 식별이 활성화되었는지 여부를 보여줍니다.

유효한 값: PII

ContentRedactionType

트랜스크립션에 콘텐츠 편집이 활성화되었는지 여부를 보여줍니다.

유효한 값: PII

EnableChannelIdentification

트랜스크립션에 채널 식별이 활성화되었는지 여부를 보여줍니다.

EnablePartialResultsStabilization

트랜스크립션에 부분 결과 안정화가 활성화되었는지 여부를 보여줍니다.

IdentifyLanguage

트랜스크립션에 자동 언어 식별이 활성화되었는지 여부를 보여줍니다.

LanguageCode

요청에서 지정한 언어 코드를 제공합니다.

유효한 값: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

LanguageModelName

요청에서 지정한 사용자 지정 언어 모델의 이름을 제공합니다.

길이 제약: 최소 길이는 1입니다. 최대 길이는 200입니다.

패턴: ^[0-9a-zA-Z._-]+

LanguageOptions

요청에서 지정한 언어 코드를 제공합니다.

길이 제약: 최소 길이는 1입니다. 최대 길이는 200입니다.

패턴: ^[a-zA-Z-,]+

MediaEncoding

요청에 지정한 미디어 인코딩을 제공합니다.

유효한 값: pcm | ogg-opus | flac

MediaSampleRateHertz

요청에 지정한 샘플 속도를 제공합니다.

유효한 범위: 최소값은 8000입니다. 최대값은 48000입니다.

NumberOfChannels

요청에서 지정한 채널 수를 제공합니다.

유효한 범위: 최소값은 2입니다.

PartialResultsStability

트랜스크립션에 사용되는 안정화 수준을 제공합니다.

유효한 값: high | medium | low

PiiEntityTypes

요청에 지정한 PII 엔티티 유형을 나열합니다.

길이 제약: 최소 길이는 1입니다. 최대 길이는 300입니다.

패턴: ^[A-Z_, ]+

PreferredLanguage

요청에서 지정한 기본 언어를 제공합니다.

유효한 값: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

RequestId

스트리밍 요청의 식별자를 제공합니다.

SessionId

트랜스크립션 세션의 식별자를 제공합니다.

길이 제약 조건: 고정 길이는 363입니다.

패턴: [a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}

ShowSpeakerLabel

트랜스크립션에 스피커 파티셔닝이 활성화되었는지 여부를 표시합니다.

VocabularyFilterMethod

트랜스크립션에 사용된 어휘 필터링 방법을 제공합니다.

유효한 값: remove | mask | tag

VocabularyFilterName

요청에서 지정한 사용자 지정 어휘 필터의 이름을 제공합니다.

길이 제약: 최소 길이는 1입니다. 최대 길이는 200입니다.

패턴: ^[0-9a-zA-Z._-]+

VocabularyFilterNames

요청에서 지정한 사용자 지정 어휘 필터의 이름을 제공합니다.

길이 제약: 최소 길이는 1입니다. 최대 길이는 3000입니다.

패턴: ^[a-zA-Z0-9,-._]+

VocabularyName

요청에서 지정한 사용자 지정 어휘의 이름을 제공합니다.

길이 제약: 최소 길이는 1입니다. 최대 길이는 200입니다.

패턴: ^[0-9a-zA-Z._-]+

VocabularyNames

요청에서 지정한 사용자 지정 어휘의 이름을 제공합니다.

길이 제약: 최소 길이는 1입니다. 최대 길이는 3000입니다.

패턴: ^[a-zA-Z0-9,-._]+

다음 데이터는 서비스에 의해 JSON 형식으로 반환됩니다.

TranscriptResultStream

스트리밍 세션에 대한 세부 정보를 제공합니다.

유형: TranscriptResultStream 객체

오류

모든 작업에 공통적으로 발생하는 오류에 대한 자세한 내용은 을 참조하십시오일반적인 오류.

BadRequestException

StartStreamTranscriptionStartMedicalStreamTranscription, 또는StartCallAnalyticsStreamTranscription 연산에 대한 하나 이상의 인수가 유효하지 않습니다. 지원되지 않는 값을LanguageCode 사용한MediaEncoding 경우를 예로 들 수 있습니다. 지정된 파라미터를 확인하고 요청을 다시 시도하세요.

HTTP 상태 코드: 400

ConflictException

새 스트림이 동일한 세션 ID로 시작되었습니다. 현재 스트림이 종료되었습니다.

HTTP 상태 코드: 409

InternalFailureException

오디오를 처리하는 동안 문제가 발생했습니다. Amazon Transcribe 처리가 종료되었습니다.

HTTP 상태 코드: 500

LimitExceededException

고객이 Amazon Transcribe 한도 중 하나를 초과했습니다. 이는 일반적으로 오디오 길이 제한입니다. 오디오 스트림을 작은 조각으로 나누고 다시 요청해 보세요.

HTTP 상태 코드: 429

ServiceUnavailableException

이 서비스는 현재 사용할 수 없습니다. 나중에 요청해 보세요.

HTTP 상태 코드: 503

참고 항목

이 API를 언어별 AWS SDK 중 하나로 사용하는 방법에 대한 자세한 내용은 다음을 참조하세요.