기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
일반적으로 시퀀스-시퀀스 모델링에 대한 신경망에는 다음을 포함한 몇 가지 계층이 포함됩니다.
-
임베딩 계층. 이 계층에서 입력 토큰이 희소 방식(예: one-hot 인코딩)으로 인코딩된 입력 매트릭스는 밀도가 높은 특징 계층으로 매핑됩니다. 고차원 특징 벡터가 단순한 one-hot 인코딩 벡터 대신 특정 토큰(단어-텍스트 말뭉치) 관련 정보 인코딩이 더욱 뛰어나기 때문에 이는 필수 사항입니다. 또한 FastText
또는 Glove 와 같은 사전 훈련된 단어 벡터가 포함된 이 임베딩 계층을 초기화하거나 이를 무작위로 초기화한 다음 훈련 도중 파라미터를 학습하는 데 있어 표준 사례입니다. -
인코더 계층. 입력 토큰이 고차원 특징 공간으로 매핑된 이후 시퀀스가 인코더 계층을 통해 전달되어 (전체 시퀀스의) 입력 임베딩 계층에 있는 모든 정보를 고정 길이 특징 벡터로 압축합니다. 일반적으로 인코더는 장단기 메모리(LSTM) 또는 게이트된 순환 유닛(GRU)과 같은 RNN 유형 네트워크로 이루어집니다. (Colah의 블로그
는 LSTM을 자세하게 설명합니다.) -
디코더 계층. 디코더 계층은 인코딩된 특징 벡터를 가져와 토큰을 출력 시퀀스를 생산합니다. 이 계층은 또한 주로 RNN 아키텍처(LSTM 및 GRU)로 빌드됩니다.
전체 모델은 공동으로 교육되어 주어진 소스 시퀀스레 대한 대상 시퀀스의 가능성을 최대화합니다. 이 모델은 2014년 Sutskever 등
어텐션 메커니즘. 인코더-디코더 프레임워크의 단점은 소스 시퀀스의 길이가 증가함에 따라 모델 성능이 감소하는 것인데, 이는 고정 길이 인코딩된 특징 벡터가 수용할 수 있는 정보의 제한 때문입니다. 이 문제를 해결하기 위해 2015년 Bahdanau 등은 어텐션 메커니즘
자세한 정보는 Luong 등이 작성한 백서인 Effective Approaches to Attention-based Neural Machine Translation