翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Sequence to Sequence の仕組み
通常、 sequence-to-sequence モデリング用のニューラルネットワークは、次のようないくつかのレイヤーで構成されます。
-
埋め込みレイヤー。このレイヤーでは、希薄な方法 (one-hot エンコードなど) でエンコードされた入力トークンである入力行列が、高密度の特徴レイヤーにマッピングされます。これは、高次元特徴ベクトルは、単純な one-hot-encoded ベクトルよりも特定のトークン (テキストコークロマの単語) に関する情報をエンコードできるため必要です。また、この埋め込みレイヤーを FastText
や Glove などの事前トレーニング済み単語ベクトルで初期化したり、ランダムに初期化してトレーニング中にパラメータを学習したりすることも標準的な方法です。 -
エンコーダーレイヤー。入力トークンを高密度の特徴スペースにマッピングした後、シーケンスはエンコーダーレイヤーを移行して、(全シーケンスの) 入力埋め込みレイヤーからのすべての情報を固定長の特徴ベクトルに圧縮します。通常、エンコーダーは長・短期記憶 (LSTM) やゲート付き再帰型ユニット (GRU) などの RNN タイプのネットワークで作成されます (LSTM の詳細については、Colah のブログ
を参考にしてください)。 -
デコーダーレイヤー。デコーダーレイヤーはこのエンコードされた特徴ベクトルを取得し、トークンの出力シーケンスを生成します。また、このレイヤーは通常、RNN アーキテクチャ (LSTM と GRU) で構成されます。
モデル全体が共同でトレーニングが行われ、ソースシーケンスが指定されたターゲットシーケンスの可能性を最大化します。このモデルは、2014 年に Sutskever ら
アテンション機構。エンコーダーデコーダーフレームワークの欠点は、エンコードされた固定長の特徴ベクトルに含めることのできる情報の量には制限があるため、ソースシーケンスの長さが増えるたびにモデルのパフォーマンスが減少する点です。この問題に取り組むために、Bahdanau らは 2015 年にアテンション機構
詳細については、Luong らによるホワイトペーパー Effective Approaches to Attention-based Neural Machine Translation (アテンションに基づくニューラル機械翻訳の効果的なアプローチ)