2015-09-10

[1508.06615] Character-Aware Neural Language Models

http://arxiv.org/abs/1508.06615
We describe a simple neural language model that relies only on character-level inputs. Predictions are still made at the word-level. Our model employs a convolutional neural network (CNN) over characters, whose output is given to a long short-term memory (LSTM) recurrent neural network language model (RNN-LM).
入力は文字、出力は単語。
単語を構成する文字の各々について、文字ごとに15次元の(分布意味)埋込みベクトルに変換して、行列 C^k を作る。
その単語の行列 C^k に対して畳み込みネットワーク (CNN) と max pooling を適用してベクトルを作る。
系列の学習は LSTM。
層の途中に highway network (HW-Net) を入れている。なくても機能するが、あれば性能が上がる。