の Sequence-to-Sequence仕組み

通常、モデリング用の sequence-to-sequenceニューラルネットワークは、以下を含むいくつかのレイヤーで構成されます。

埋め込みレイヤー。このレイヤーでは、希薄な方法 (one-hot エンコードなど) でエンコードされた入力トークンである入力行列が、高密度の特徴レイヤーにマッピングされます。これは、高次元特徴ベクトルは、単純な one-hot-encodedベクトルよりも特定のトークン (テキストコーポラの単語) に関する情報をエンコードできるために必要です。また、この埋め込みレイヤーを FastTextや Glove などの事前トレーニング済みの単語ベクトルで初期化したり、ランダムに初期化してトレーニング中にパラメータを学習したりすることも標準的な方法です。
エンコーダーレイヤー。入力トークンを高密度の特徴スペースにマッピングした後、シーケンスはエンコーダーレイヤーを移行して、(全シーケンスの) 入力埋め込みレイヤーからのすべての情報を固定長の特徴ベクトルに圧縮します。通常、エンコーダーは、長期短期メモリ (LSTM) やゲート付き反復ユニット () などの RNNタイプのネットワークで構成されますGRU。（Colah のブログLSTMでは、詳しく説明しています）。
デコーダーレイヤー。デコーダーレイヤーはこのエンコードされた特徴ベクトルを取得し、トークンの出力シーケンスを生成します。このレイヤーは、通常、RNNアーキテクチャ (LSTM および ) を使用して構築されますGRU。

モデル全体が共同でトレーニングが行われ、ソースシーケンスが指定されたターゲットシーケンスの可能性を最大化します。このモデルは、2014 年に Sutskever らによって最初に導入されました。

アテンション機構。エンコーダーデコーダーフレームワークの欠点は、エンコードされた固定長の特徴ベクトルに含めることのできる情報の量には制限があるため、ソースシーケンスの長さが増えるたびにモデルのパフォーマンスが減少する点です。この問題に取り組むために、Bahdanau らは 2015 年にアテンション機構を提案しました。アテンション機構では、デコーダーが最も重要な情報が存在する可能性があるエンコーダーシーケンス内の場所の検索を試行し、その情報と以前にデコードした単語を使用して、シーケンス内の次のトークンを予測します。

詳細については、Luong らによるホワイトペーパー Effective Approaches to Attention-based Neural Machine Translation (アテンションに基づくニューラル機械翻訳の効果的なアプローチ) を参照してください。さらに、Wu らによるホワイトペーパー Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (Google のニューラル機械翻訳システム: 人間と機械翻訳の間での橋渡し) では、Google の機械翻訳のアーキテクチャーについて説明しています。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Sequence to Sequence (seq2seq)

ハイパーパラメータ