2015-09-24

Yusuke Matsui

https://www.hal.t.u-tokyo.ac.jp/~matsui/index.html
My research interest includes computer vision and multimedia processing. More specifically, I am interested in manga image processing. With the help of computer vision techniques, can we maka the manga-reading experience more enjoyable? Can we enhance the skills of novices and let them enjoy drawing manga? To answer these questions, I have proposed several applications, e.g., manga retargeting, retrieval, and drawing assistance.

Illustration2Vec: A Semantic Vector Representation of Illustrations

http://illustration2vec.net/papers/illustration2vec-main.pdf
http://illustration2vec.net/papers/illustration2vec-supp.pdf
http://illustration2vec.net/
Referring to existing illustrations helps novice drawers to realize their ideas. To find such helpful references from a large image collection, we first build a semantic vector representation of illustrations by training convolutional neural networks. As the proposed vector space correctly reflects the semantic meanings of illustrations, users can efficiently search for references with similar attributes. Besides the search with a single query, a semantic morphing algorithm that searches the intermediate illustrations that gradually connect two queries is proposed. Several experiments were conducted to demonstrate the effectiveness of our methods.

2015-09-21

Deep Learningの基礎と応用

http://www.slideshare.net/beam2d/deep-learning-52872945
第14回情報科学技術フォーラム (FIT2015) のイベント企画「ビッグデータ解析のための機械学習技術」におけるチュートリアル講演資料です。ニューラルネットの基礎(計算グラフとしての定式化、勾配法、誤差逆伝播法)をさらったあと、最近画像や自然言語などで注目されている応用・手法について広く浅く紹介しています。

2015-09-17

Études in Programming Intelligence: IRNN vs LSTM

http://etudes-in-pi.blogspot.jp/2015/07/irnn-vs-lstm.html
IRNN と呼ばれる RNN がこの論文で提案された。論文内で行われた MNIST のデータを使った実験の設定を少し変えたものを Keras を使って実装してみた。それのプルリクエストを作成したところ、フランソワから LSTM との比較も行ってみては?と言われたのでやってみた。この投稿はその結果になる。

2015-09-10

[1508.06615] Character-Aware Neural Language Models

http://arxiv.org/abs/1508.06615
We describe a simple neural language model that relies only on character-level inputs. Predictions are still made at the word-level. Our model employs a convolutional neural network (CNN) over characters, whose output is given to a long short-term memory (LSTM) recurrent neural network language model (RNN-LM).
入力は文字、出力は単語。
単語を構成する文字の各々について、文字ごとに15次元の(分布意味)埋込みベクトルに変換して、行列 C^k を作る。
その単語の行列 C^k に対して畳み込みネットワーク (CNN) と max pooling を適用してベクトルを作る。
系列の学習は LSTM。
層の途中に highway network (HW-Net) を入れている。なくても機能するが、あれば性能が上がる。