Showing posts with label corpus. Show all posts
Showing posts with label corpus. Show all posts

2015-07-30

日本語Wikipediaオントロジー

http://www.wikipediaontology.org/
本研究チームでは,日本語版Wikipediaを情報資源として,半自動的に大規模で汎用的なオントロジーを構築する事を目的とした研究を行っています.

DBpedia についてすこし調べてみた - a lonely miner

http://conditional.github.io/blog/2015/07/28/an-introduction-to-dbpedia/
What is DBpedia?

Wikipediaを自動的に、RDFトリプルに変換する仕組み、あるいはそのプロジェクト。

2015-06-04

livedoor ニュースコーパス | ダウンロード | 株式会社ロンウイット

http://www.rondhuit.com/download.html#ldcc
概要
本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除いて作成したものです。

収集時期:2012年9月上旬 ダウンロード(通常テキスト):ldcc-20140209.tar.gz ダウンロード(Apache Solr向き):livedoor-news-data.tar.gz 論文などで引用する場合は、このURLを参照してください。

2015-05-26

場所参照表現タグ付きコーパス Ver 0.1 (2015/05/25)

http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/
概要

本コーパスは,Twitterからランダムにサンプリングしたテキストに現れる,「特定の場所を著者が想定している」と判断できる表現に対して,実際にどのエンティティを指しているかを人手で判断しエンティティ情報を付与したコーパスです.GeoNLPなどのジオパーズシステム,エンティティリンキングシステム等の開発や評価に利用することを想定して構築されました.

2015-04-14

青空朗読 | 青空文庫に所蔵されている本を朗読しています

http://aozoraroudoku.jp/
「青空朗読」はインターネット上の図書館である「青空文庫」に掲載されている本を朗読する ...
「青空文庫」を朗読した mp3 をダウンロードできる。
この音声データと「青空文庫」のテキストを合わせれば、日本語音声コーパスとして使えるだろう。