Sequence-to-Sequence 작동 방식

일반적으로 시퀀스-시퀀스 모델링에 대한 신경망에는 다음을 포함한 몇 가지 계층이 포함됩니다.

임베딩 계층. 이 계층에서 입력 토큰이 희소 방식(예: one-hot 인코딩)으로 인코딩된 입력 매트릭스는 밀도가 높은 특징 계층으로 매핑됩니다. 고차원 특징 벡터가 단순한 one-hot 인코딩 벡터 대신 특정 토큰(단어-텍스트 말뭉치) 관련 정보 인코딩이 더욱 뛰어나기 때문에 이는 필수 사항입니다. 또한 FastText 또는 Glove와 같은 사전 훈련된 단어 벡터가 포함된 이 임베딩 계층을 초기화하거나 이를 무작위로 초기화한 다음 훈련 도중 파라미터를 학습하는 데 있어 표준 사례입니다.
인코더 계층. 입력 토큰이 고차원 특징 공간으로 매핑된 이후 시퀀스가 인코더 계층을 통해 전달되어 (전체 시퀀스의) 입력 임베딩 계층에 있는 모든 정보를 고정 길이 특징 벡터로 압축합니다. 일반적으로 인코더는 장단기 메모리(LSTM) 또는 게이트된 순환 유닛(GRU)과 같은 RNN 유형 네트워크로 이루어집니다. (Colah의 블로그는 LSTM을 자세하게 설명합니다.)
디코더 계층. 디코더 계층은 인코딩된 특징 벡터를 가져와 토큰을 출력 시퀀스를 생산합니다. 이 계층은 또한 주로 RNN 아키텍처(LSTM 및 GRU)로 빌드됩니다.

전체 모델은 공동으로 교육되어 주어진 소스 시퀀스레 대한 대상 시퀀스의 가능성을 최대화합니다. 이 모델은 2014년 Sutskever 등이 처음으로 소개했습니다.

어텐션 메커니즘. 인코더-디코더 프레임워크의 단점은 소스 시퀀스의 길이가 증가함에 따라 모델 성능이 감소하는 것인데, 이는 고정 길이 인코딩된 특징 벡터가 수용할 수 있는 정보의 제한 때문입니다. 이 문제를 해결하기 위해 2015년 Bahdanau 등은 어텐션 메커니즘을 제안했습니다. 주목 메커니즘에서 디코더는 가장 중요한 정보가 위치할 수 있는 인코더 시퀀스의 위치를 찾으려 하고, 해당 정보와 이전에 디코딩된 단어를 사용하여 시퀀스의 다음 토큰을 예측합니다.

자세한 정보는 Luong 등이 작성한 백서인 Effective Approaches to Attention-based Neural Machine Translation을 참조하세요. 여기에는 다양한 어텐션 메커니즘에 대한 계산이 간단하게 설명되어 있습니다. 또한 Wu 등이 작성한 백서인 Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation에서는 인코더 및 디코더 계층 사이의 스킵 연결을 사용하는 Google의 기계 번역 아키텍처에 대해 설명합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Sequence to Sequence(seq2seq)

하이퍼파라미터