2015-07-26

言語を知ることは、人とは何かを知ること――人の言語習得の仕組みを明らかにする / 認知・発達心理学者・今井むつみ氏インタビュー | SYNODOS -シノドス-

http://synodos.jp/intro/14531
今回は、ヒトの赤ちゃんの言語習得の研究を通じて「人とは何か」という大いなる謎に挑み続ける、認知・発達心理学者の今井むつみ先生にお話を伺いました。

2015-07-14

IEEE 754r Half Precision floating point converter - File Exchange - MATLAB Central

http://www.mathworks.com/matlabcentral/fileexchange/23173-ieee-754r-half-precision-floating-point-converter
Converts MATLAB or C variables to/from IEEE 754r Half Precision floating point bit pattern.
半精度浮動小数点数(IEEE 754)を変換する C言語ソースコード。ライセンスは BSD License。

Half-precision floating-point format - Wikipedia, the free encyclopedia

https://en.wikipedia.org/wiki/Half-precision_floating-point_format

2015-07-11

[1507.02030] Beyond Convexity: Stochastic Quasi-Convex Optimization

http://arxiv.org/abs/1507.02030
The Normalized Gradient Descent (NGD) algorithm, is an adaptation of Gradient Descent, which updates according to the direction of the gradients, rather than the gradients themselves.
ざっと眺めただけだが、通常はニューラルネットの重みの更新に勾配を使うが、NGD では勾配の向きによって重みを±学習率だけ更新させるという方法で学習する(アルゴリズム1)。ただし、ミニバッチ数を増やす必要がある(図2(c))。

2015-06-11

The EDICT Dictionary File

http://www.edrdg.org/jmdict/edict.html
EDICT is a Japanese-English Dictionary file.
和英辞典ファイルのダウンロード。
漢字の辞書もある。

KANJIDIC2 HOME PAGE

http://www.edrdg.org/kanjidic/kanjd2index.html
The KANJIDIC2 project has as its aim the production of a consolidated XML-format kanji database combining the information currently in the KANJIDIC (6,355 kanji from JIS X 0208) and KANJD212 (5,801 kanji from JIS X 0212) files (overview) (documentation), and adding information about the additional 952 kanji in JIS X 0213. (2,743 kanji are in both JIS X 0212 and JIS X 0213.)
漢字とその意味(英語)の辞書。

2015-06-09

Chainer: A flexible framework of neural networks

http://chainer.org/
A Powerful, Flexible, and Intuitive Framework of Neural Networks
ライセンスは MIT License。

Deep Learning のフレームワーク Chainer を公開しました | Preferred Research

http://research.preferred.jp/2015/06/deep-learning-chainer/
本日、Deep Learning の新しいフレームワークである Chainer を公開しました。

Chainer は、ニューラルネットを誤差逆伝播法で学習するためのフレームワークです。以下のような特徴を持っています。

* Python のライブラリとして提供(要 Python 2.7+)
* あらゆるニューラルネットの構造に柔軟に対応
* 動的な計算グラフ構築による直感的なコード
* GPU をサポートし、複数 GPU をつかった学習も直感的に記述可能

2015-06-08

生態学/非統計系向け確率的トピックモデル講義録

http://chasen.org/~daiti-m/diary/?201506a&to=201506070#201506070
今年の1月に統数研で行われた, 「生物に見られる時空間パターンと統計数理:同調・認知・行動」 という島谷先生主催の研究集会で行ったトピックモデルの講義を, 何と聴いていた学生 さん・若手の方と島谷さんが文字起こしした上で, 編集して講義録として公開してくれました。

「離散データの確率的トピックモデル」
http://chasen.org/~daiti-m/paper/daichi15topicmodel-for-ecology.pdf

2015-06-04

Variant tf-idf functions | Introduction to Information Retrieval

http://nlp.stanford.edu/IR-book/html/htmledition/variant-tf-idf-functions-1.html
For assigning a weight for each term in each document, a number of alternatives to tf and tf-idf have been considered.

livedoor ニュースコーパス | ダウンロード | 株式会社ロンウイット

http://www.rondhuit.com/download.html#ldcc
概要
本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除いて作成したものです。

収集時期:2012年9月上旬 ダウンロード(通常テキスト):ldcc-20140209.tar.gz ダウンロード(Apache Solr向き):livedoor-news-data.tar.gz 論文などで引用する場合は、このURLを参照してください。

2015-05-26

場所参照表現タグ付きコーパス Ver 0.1 (2015/05/25)

http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/
概要

本コーパスは,Twitterからランダムにサンプリングしたテキストに現れる,「特定の場所を著者が想定している」と判断できる表現に対して,実際にどのエンティティを指しているかを人手で判断しエンティティ情報を付与したコーパスです.GeoNLPなどのジオパーズシステム,エンティティリンキングシステム等の開発や評価に利用することを想定して構築されました.

Computing numeric representations of words in a high-dimensional space - Google Inc.

http://www.freepatentsonline.com/9037464.html
United States Patent 9037464

Inventors:
Mikolov, Tomas (Jersey City, NJ, US)
Chen, Kai (San Bruno, CA, US)
Corrado, Gregory S. (San Francisco, CA, US)
Dean, Jeffrey A. (Palo Alto, CA, US)
word2vec 関連の特許。

ConvNetJS MNIST demo

http://cs.stanford.edu/people/karpathy/convnetjs/demo/mnist.html
This demo trains a Convolutional Neural Network on the MNIST digits dataset in your browser, with nothing but Javascript.
手書き数字の画像データを JavaScript のプログラムで学習するデモ。
学習中の各層(conv, pool, softmax)の重みやアクティベーション値をリアルタイムで見ることができる。

The Unreasonable Effectiveness of Recurrent Neural Networks

http://karpathy.github.io/2015/05/21/rnn-effectiveness/
We'll train RNNs to generate text character by character and ponder the question "how is that even possible?"

Andrej Karpathy Academic Website

http://cs.stanford.edu/people/karpathy/
Andrej Karpathy
Stanford Computer Science Ph.D. student

karpathy/convnetjs · GitHub

https://github.com/karpathy/convnetjs
ConvNetJS is a Javascript implementation of Neural networks, together with nice browser-based demos.

ConvNetJS: Deep Learning in your browser

http://cs.stanford.edu/people/karpathy/convnetjs/

ConvNetJS is a Javascript library for training Deep Learning models (mainly Neural Networks) entirely in your browser. Open a tab and you're training. No software requirements, no compilers, no installations, no GPUs, no sweat.