2017-08-15

JSON Streaming - Wikipedia

https://en.wikipedia.org/wiki/JSON_Streaming
Line delimited JSON (LDJSON), newline delimited JSON (NDJSON), and JSON lines (JSONL) are three terms for equivalent formats of JSON streaming.

2017-05-19

ndjson

http://ndjson.org/
This page describes the ndjson format, also called Newline delimited JSON.
NDJSON is a convenient format for storing or streaming structured data that may be processed one record at a time.
http://specs.okfnlabs.org/ndjson/
NDJSON - Newline delimited JSON
1行 1 JSON のデータフォーマットに「ndjson」という名前が付いていたのを初めて知った。

2017-04-26

「統計数理」第64巻

http://www.ism.ac.jp/editsec/toukei/tokeisuri-64j.html#NO2
特集「統計的言語研究の現在」

「特集 統計的言語研究の現在」編集にあたって
持橋 大地、前川 喜久雄、浅原 正幸

文に隠れた構文構造を発見する統計モデル
能地 宏

言語変化と系統への統計的アプローチ
村脇 有吾

条件付き確率場の理論と実践
岡崎 直観

言語理解研究における眼球運動データ及び読み時間データの統計分析
新井 学、Douglas Roland

ツイート数と現実の統計量との差異に関する検討
荒牧 英治、若宮 翔子
全文 pdf をダウンロードできる。

2017-03-20

models/skip_thoughts at master · tensorflow/models · GitHub

https://github.com/tensorflow/models/tree/master/skip_thoughts
Skip-Thought Vectors

This is a TensorFlow implementation of the model described in:

Jamie Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors. In NIPS, 2015.

著作物が自由に使える場合は? | 著作権って何? | 著作権Q&A | 公益社団法人著作権情報センター CRIC

http://www.cric.or.jp/qa/hajime/hajime7.html
インターネット情報検索サービスにおける複製(著作権法第47条の6)
インターネットによる情報検索サービスを行う事業者は、当該サービスを提供するために必要と認められる限度において、著作物を複製・自動公衆送信することができる。但し、著作権者が情報収集されることを拒否している場合は当該情報は収集できず、また、違法著作物であることを知った場合には、その提供を停止しなければならない。
情報解析のための複製(著作権法第47条の7)
コンピュータを使った情報解析のために、必要と認められる限度において、著作物を複製することができる。

2017-03-19

GitHub - google/seq2seq: A general-purpose encoder-decoder framework for Tensorflow

https://github.com/google/seq2seq
A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.

DotNetZip/CRC32.cs at master · HalfVoxel/DotNetZip · GitHub

https://github.com/HalfVoxel/DotNetZip/blob/master/CommonSrc/CRC32.cs
// This code is licensed under the Microsoft Public License.
// See the file License.txt for the license details.
// More info on: http://dotnetzip.codeplex.com
ファイルの CRC32 を計算する C# ソースコード。

Create an offline installer for Visual Studio 2017 | Microsoft Docs

https://docs.microsoft.com/en-us/visualstudio/install/create-an-offline-installation-of-visual-studio
For Visual Studio Community, run:
vs_community.exe --layout c:\vs2017offline
To download all workloads and components for only one language, run:
vs_enterprise.exe --layout C:\vs2017offline --lang en-US

2017-03-13

GitHub - google/sentencepiece

https://github.com/google/sentencepiece
SentencePiece is an unsupervised text tokenizer and detokenizer mainly for Neural Network-based text generation systems where the vocabulary size is predetermined prior to the neural model training.
SentencePiece implements sub-word units (also known as wordpieces [Wu et al.] [Schuster et al.] and byte-pair-encoding (BPE) [Sennrich et al.]) with the extension of direct training from raw sentences.