概要

2017年 “Attention Is All You Need” という論文が Googleから発表され,機械翻訳の分野で既存のRNN,LSTM,GRU等のモデルを大きく上回る結果となりました.提案されたTransformerモデルは,従来のRNNやCNNを使用せず,Attention機構のみを用いるSeq2Seqモデルです.今回は,このAttention機構を実装ベースで理解します.RNNと異なり並列計算が可能で計算が高速な上,Self-Attentionと呼ばれる機構を用いることにより,局所的な情報しか参照できないCNNと異なり,系列内の任意の位置情報を参照することができます.現在,自然言語処理のデファクトスタンダードとなっているBERTはこのTransformerに端を発しています.さらに,類似手法が,画像認識,生成モデル,音声認識などの分野で幅広く利用されています.このようにAttentionの動作原理を理解することは,深層学習分野において極めて重要です.

目的

  • 様々な場面で登場するようになったAttention機構を実装ベースで理解する.
  • 実際に機械翻訳のタスクを実行し,従来のSeq2Seqモデルと比較してTransformerの精度の高さを確認する.

実施期間・日時

場所: 友人宅
日時: 2019年4月29日 10時 - 12時

参考資料

[1] A. Vaswani et al. Attention is All You Need NeurIPS, 2017. [arXiv]