Christopher D. Manning
Stanford University
MIT Press Journals - Computational Linguistics - Early Access - Citation
2015-11-16
Computational Linguistics and Deep Learning
http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00239
2015-11-15
Deep Learningの教材 - こんな夢を見た
http://hytae.hatenablog.com/entry/2015/11/14/Deep_Learning%E3%81%AE%E6%95%99%E6%9D%90
Deep Learningを勉強するにあたって内容がまとまっている教材についてリスト化しました。
2015-11-11
Marvin: Deep Learning in N Dimensions
http://marvin.is/
Marvin was born to be hacked, relying on few dependencies and basic C++. All code lives in two files (marvin.hpp and marvin.cu) and all numbers take up two bytes (FP16).
Marvin’s life depends on an NVIDIA GPU with CUDA 7.5 and cuDNN 3.https://github.com/PrincetonVision/marvin/
Marvin is a GPU-only neural network framework made with simplicity, hackability, speed, memory consumption, and high dimensional data in mind.
The MIT License (MIT)
Copyright (c) 2015 Princeton Vision Group
Understanding Convolutional Neural Networks for NLP | WildML
http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/
In this post I’ll try to summarize what CNNs are, and how they’re used in NLP.
2015-11-06
Code Excited Linear Prediction - Wikipedia
https://ja.wikipedia.org/wiki/Code_Excited_Linear_Prediction
Code Excited Linear Prediction(CELP、セルプ)は、1985年に米AT&Tの M.R. Schroeder と B.S. Atal が提案した音声符号化アルゴリズム。携帯電話の音声圧縮のベースとなっているアルゴリズムらしい。
2015-10-30
[1510.04189] Improving Back-Propagation by Adding an Adversarial Gradient
http://arxiv.org/abs/1510.04189
Algorithm 1 だけでだいたい分かるが、
A simple extension to the back-propagation method is proposed, that adds an adversarial gradient to the training.ニューラルネットで、1パス目は重みを更新せずに誤差を計算して、2パス目はその誤差を加工した値を入力値に加算して通常の学習を行うというシンプルな手法で精度が上がるというもの。
Algorithm 1 だけでだいたい分かるが、
z = x + ε * sign(e)で、x は1パス目の入力値、e は1パス目で計算した誤差、sign 関数は { +1, -1 } を返す関数、ε は揺らす大きさ(係数)、z は2パス目の入力値となる。
As stated in Goodfellow et al. (2014) and Fawzi et al. (2015), adding adversarial perturbations is quite different from adding input noise. Adding noise will direct the model to increase the margin in all possible directions around the training samples. A model has limited capacity, and this may limit the achievable margin in the directions that matters most, where the margins are smallest.モデルの表現力には限界がある。ノイズを加える手法は不要な方向にもマージンを大きくしてしまうのが問題だが、adversarial perturbations はそれとは違うということが記述されている。
2015-10-28
[1409.2329] Recurrent Neural Network Regularization
http://arxiv.org/abs/1409.2329
Figure 2 と p3 の下の式の太字 D の箇所を参照するとよい。
We present a simple regularization technique for Recurrent Neural Networks (RNNs) with Long Short-Term Memory (LSTM) units. Dropout, ...LSTM に dropout を適用するには、リカレント(同じ層の1つ前の時間ステップ)の隠れユニットに適用するのではなく、入力(または1つ下の層の隠れユニット)に対して適用するとよいという話。
Figure 2 と p3 の下の式の太字 D の箇所を参照するとよい。
2015-10-26
[1510.02693] Feedforward Sequential Memory Neural Networks without Recurrent Feedback
http://arxiv.org/abs/1510.02693
Table 2 のアーキテクチャでは、メモリブロック付きの隠れ層素子数は 600 とあるが、30 次の FIR フィルタということは 30 * 600 = 18k となるわけで、計算量が多すぎるのではないだろうか。また、隠れ層の数も各手法で異なっており、性能比較が妥当かどうか疑問である。
なお、非再帰形ディジタルフィルタについては次のページを参考されたい。
ディジタルフィルタとz変換
http://laputa.cs.shinshu-u.ac.jp/~yizawa/InfSys1/basic/chap10/index.htm
feedforward sequential memory networks (FSMN), which can learn long-term dependency without using recurrent feedback.提案されている FSMN は、非再帰形ディジタルフィルタと同じ型のネットワークのようだ。
Table 2 のアーキテクチャでは、メモリブロック付きの隠れ層素子数は 600 とあるが、30 次の FIR フィルタということは 30 * 600 = 18k となるわけで、計算量が多すぎるのではないだろうか。また、隠れ層の数も各手法で異なっており、性能比較が妥当かどうか疑問である。
なお、非再帰形ディジタルフィルタについては次のページを参考されたい。
ディジタルフィルタとz変換
http://laputa.cs.shinshu-u.ac.jp/~yizawa/InfSys1/basic/chap10/index.htm
ディジタルフィルタとz変換
http://laputa.cs.shinshu-u.ac.jp/~yizawa/InfSys1/basic/chap10/index.htm
1クロック(T)だけ信号を遅延する関数は z-1 で表されます。
2015-10-25
[1510.03009] Neural Networks with Few Multiplications
http://arxiv.org/abs/1510.03009
(2) 誤差逆伝搬時の重み更新量 ΔW を計算するときに、入力値 x を確率的に量子化することで、乗算を使わずにシフト演算で計算する。
具体的には、x = 5 の場合、log_2(5) = 2.32... を切り下げて 2 なので、シフト量は 0.75 の確率で 2 となり、0.25 の確率で 3 となる。よって、ΔW = δ << 2 (または δ << 3) として計算できる (δは誤差項)。シフト量は -4~3 の範囲に収まるようにクリッピングする。
論文からは (2) の quantized back propagation の方法がよく分からなかったので、第一著者のソースコードを参照した。
Zhouhan Lin (第一著者) のソースコードは次のアドレスにある。
https://github.com/hantek/binary_conv/blob/master/matcode/layer_m.py
精度が若干向上している(正則化のような効果が出ている)のは、確率的に重みや(重み更新時の)入力値が揺れているためではないかと思われる。つまり、ノイズを混ぜているのに似ているではないだろうか。
First we stochastically binarize weights
Second, while back-propagating error derivatives, in addition to binarizing the weights, we quantize the representations at each layer to convert the remaining multiplications into binary shifts.次の2つの手法により乗算を減らす。
- binary connect (2値結合) / ternary connect (3値結合)
- quantized back propagation (量子化誤差逆伝搬法)
(2) 誤差逆伝搬時の重み更新量 ΔW を計算するときに、入力値 x を確率的に量子化することで、乗算を使わずにシフト演算で計算する。
具体的には、x = 5 の場合、log_2(5) = 2.32... を切り下げて 2 なので、シフト量は 0.75 の確率で 2 となり、0.25 の確率で 3 となる。よって、ΔW = δ << 2 (または δ << 3) として計算できる (δは誤差項)。シフト量は -4~3 の範囲に収まるようにクリッピングする。
論文からは (2) の quantized back propagation の方法がよく分からなかったので、第一著者のソースコードを参照した。
Zhouhan Lin (第一著者) のソースコードは次のアドレスにある。
https://github.com/hantek/binary_conv/blob/master/matcode/layer_m.py
精度が若干向上している(正則化のような効果が出ている)のは、確率的に重みや(重み更新時の)入力値が揺れているためではないかと思われる。つまり、ノイズを混ぜているのに似ているではないだろうか。
Low-discrepancy sequence - Wikipedia, the free encyclopedia
https://en.wikipedia.org/wiki/Low-discrepancy_sequence
Low-discrepancy sequences are also called quasi-random or sub-random sequences
A deviation of CURAND: standard pseudorandom number generator in CUDA for GPGPU
http://www.math.sci.hiroshima-u.ac.jp/~m-mat/MT/MTGP/curand-slide-mcqmc.pdf
xorwow = xorshift + Weyl generatorXORWOW の解説スライド。
準乱数の生成 - MATLAB & Simulink - MathWorks 日本
http://jp.mathworks.com/help/stats/generating-quasi-random-numbers.html
一般の生成法で説明した疑似乱数列とは異なり、準乱数列は多くのランダム統計検定に失敗します。しかし、真のランダムの近似はその目的ではありません。準乱数列は、初期のセグメントがこの行動を指定の密度まで近似させる方法により、均一に空間を満たします。
2015-09-24
Yusuke Matsui
https://www.hal.t.u-tokyo.ac.jp/~matsui/index.html
My research interest includes computer vision and multimedia processing. More specifically, I am interested in manga image processing. With the help of computer vision techniques, can we maka the manga-reading experience more enjoyable? Can we enhance the skills of novices and let them enjoy drawing manga? To answer these questions, I have proposed several applications, e.g., manga retargeting, retrieval, and drawing assistance.
Illustration2Vec: A Semantic Vector Representation of Illustrations
http://illustration2vec.net/papers/illustration2vec-main.pdf
http://illustration2vec.net/papers/illustration2vec-supp.pdf
http://illustration2vec.net/
http://illustration2vec.net/papers/illustration2vec-supp.pdf
http://illustration2vec.net/
Referring to existing illustrations helps novice drawers to realize their ideas. To find such helpful references from a large image collection, we first build a semantic vector representation of illustrations by training convolutional neural networks. As the proposed vector space correctly reflects the semantic meanings of illustrations, users can efficiently search for references with similar attributes. Besides the search with a single query, a semantic morphing algorithm that searches the intermediate illustrations that gradually connect two queries is proposed. Several experiments were conducted to demonstrate the effectiveness of our methods.
Labels:
CNN,
computer vision,
convolutional network,
illustration,
search,
visual similarity,
松井勇佑,
齋藤真樹
2015-09-21
Deep Learningの基礎と応用
http://www.slideshare.net/beam2d/deep-learning-52872945
第14回情報科学技術フォーラム (FIT2015) のイベント企画「ビッグデータ解析のための機械学習技術」におけるチュートリアル講演資料です。ニューラルネットの基礎(計算グラフとしての定式化、勾配法、誤差逆伝播法)をさらったあと、最近画像や自然言語などで注目されている応用・手法について広く浅く紹介しています。
2015-09-17
Études in Programming Intelligence: IRNN vs LSTM
http://etudes-in-pi.blogspot.jp/2015/07/irnn-vs-lstm.html
IRNN と呼ばれる RNN がこの論文で提案された。論文内で行われた MNIST のデータを使った実験の設定を少し変えたものを Keras を使って実装してみた。それのプルリクエストを作成したところ、フランソワから LSTM との比較も行ってみては?と言われたのでやってみた。この投稿はその結果になる。
2015-09-10
[1508.06615] Character-Aware Neural Language Models
http://arxiv.org/abs/1508.06615
単語を構成する文字の各々について、文字ごとに15次元の(分布意味)埋込みベクトルに変換して、行列 C^k を作る。
その単語の行列 C^k に対して畳み込みネットワーク (CNN) と max pooling を適用してベクトルを作る。
系列の学習は LSTM。
層の途中に highway network (HW-Net) を入れている。なくても機能するが、あれば性能が上がる。
We describe a simple neural language model that relies only on character-level inputs. Predictions are still made at the word-level. Our model employs a convolutional neural network (CNN) over characters, whose output is given to a long short-term memory (LSTM) recurrent neural network language model (RNN-LM).入力は文字、出力は単語。
単語を構成する文字の各々について、文字ごとに15次元の(分布意味)埋込みベクトルに変換して、行列 C^k を作る。
その単語の行列 C^k に対して畳み込みネットワーク (CNN) と max pooling を適用してベクトルを作る。
系列の学習は LSTM。
層の途中に highway network (HW-Net) を入れている。なくても機能するが、あれば性能が上がる。
Labels:
Alexander M. Rush,
CNN,
convolutional network,
David Sontag,
language model,
LSTM,
NLP,
Yacine Jernite,
Yoon Kim
2015-09-05
DEEP LEARNING: Methods and Applications - Microsoft Research
http://research.microsoft.com/apps/pubs/default.aspx?id=209355
Abstract
This book is aimed to provide an overview of general deep learning methodology and its applications to a variety of signal and information processing tasks.