Showing posts with label LSTM. Show all posts
Showing posts with label LSTM. Show all posts

2015-10-28

[1409.2329] Recurrent Neural Network Regularization

http://arxiv.org/abs/1409.2329
We present a simple regularization technique for Recurrent Neural Networks (RNNs) with Long Short-Term Memory (LSTM) units. Dropout, ...
LSTM に dropout を適用するには、リカレント(同じ層の1つ前の時間ステップ)の隠れユニットに適用するのではなく、入力(または1つ下の層の隠れユニット)に対して適用するとよいという話。

Figure 2 と p3 の下の式の太字 D の箇所を参照するとよい。

2015-09-17

Études in Programming Intelligence: IRNN vs LSTM

http://etudes-in-pi.blogspot.jp/2015/07/irnn-vs-lstm.html
IRNN と呼ばれる RNN がこの論文で提案された。論文内で行われた MNIST のデータを使った実験の設定を少し変えたものを Keras を使って実装してみた。それのプルリクエストを作成したところ、フランソワから LSTM との比較も行ってみては?と言われたのでやってみた。この投稿はその結果になる。

2015-09-10

[1508.06615] Character-Aware Neural Language Models

http://arxiv.org/abs/1508.06615
We describe a simple neural language model that relies only on character-level inputs. Predictions are still made at the word-level. Our model employs a convolutional neural network (CNN) over characters, whose output is given to a long short-term memory (LSTM) recurrent neural network language model (RNN-LM).
入力は文字、出力は単語。
単語を構成する文字の各々について、文字ごとに15次元の(分布意味)埋込みベクトルに変換して、行列 C^k を作る。
その単語の行列 C^k に対して畳み込みネットワーク (CNN) と max pooling を適用してベクトルを作る。
系列の学習は LSTM。
層の途中に highway network (HW-Net) を入れている。なくても機能するが、あれば性能が上がる。

2015-04-08

[1504.00941] A Simple Way to Initialize Recurrent Networks of Rectified Linear Units

http://arxiv.org/abs/1504.00941
In this paper, we propose a simpler solution that use recurrent neural networks composed of rectified linear units.
Key to our solution is the use of the identity matrix or its scaled version to initialize the recurrent weight matrix.
再帰ネットに ReLU (rectified linear units) を使って長期の時間的構造を学習する。

2015-03-18

Long short term memory - Wikipedia, the free encyclopedia

http://en.wikipedia.org/wiki/Long_short_term_memory
Long short term memory (LSTM) is a recurrent neural network (RNN) architecture

[1503.04069] LSTM: A Search Space Odyssey

http://arxiv.org/abs/1503.04069
  • The most commonly used LSTM architecture (vanilla LSTM) performs reasonably well on various datasets and using any of eight possible modifications does not significantly improve the LSTM performance.
  • Certain modifications such as coupling the input and forget gates or removing peephole connections simplify LSTM without significantly hurting performance.
  • The forget gate and the output activation function are the critical components of the LSTM block. While the first is crucial for LSTM performance, the second is necessary whenever the cell state is unbounded.