予めMecab様のインストールは済んでるものとする
word2vecのインストール
git clone https://github.com/dav/word2vec.git cd scripts && sh demo-word.sh
サンプルまでご丁寧にダウンロードされるのでしばらく待つ
辞書データを用意する
今回はおとなしくWikipediaを使う
http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
をダウンロード 2GB超するので注意
wp2txtで整形するのでダウンロードしたファイルのあるディレクトリで
bundle init echo 'gem "wp2txt"' >> Gemfile bundle --path=v
するとv/ruby/2.x.x/bin/
にwp2txtファイルができるので
v/ruby/2.2.0/bin/wp2txt --input-file jawiki-latest-pages-articles.xml.bz2
wikipediaデータをwp2txtで整形
wp2txt --input-file jawiki-latest-pages-articles.xml.bz2 cat jawiki-latest-pages-articles.xml-*corpus.txt >
Mecabで分かち書き
生成されたcorpus.txtをword2vecディレクトリへ持っていって分かち書き
mecab -b 100000 -Owakati corpus.txt -o corpus_wakati.txt
-b
オプションは適宜付けないとinput-buffer overflow
って怒られる
word2vecで学習
bin/word2vec -train corpus_wakati.txt -output data.bin -window 5 -threads 2 -binary 1