MeCab+Pythonのセットアップ
MeCabをインストールしたのでそのメモです。MeCabの公式サイトと『Pythonによる日本語自然言語処理』を参考にさせていただきました。OSはMac OS 10.6です。
辞書のインストール(mecab-ipadic-2.7.0-20070801)
$ ./configure --with-charset=utf-8 $ make $ sudo make install
動作テスト
次のような簡単なスクリプトを書いてテストしました。これも上記した2つのサイトを参考に書きました。出力は形態素だけにしています(-O wakati)。
#!/usr/bin/env python # -*- coding: utf-8 -*- import sys import codecs import MeCab reload(sys) sys.setdefaultencoding("utf-8") sys.stdin = codecs.getreader("utf-8")(sys.stdin) sys.stdout = codecs.getwriter("utf-8")(sys.stdout) document = "旧石器時代日本列島において確認されている人類の歴史は、約10万年ないし約3万年前までさかのぼる。" mecab = MeCab.Tagger("-O wakati") output = mecab.parse(document) print output,
次のような出力が得られました。なお,print文の最後のカンマは余計な改行の出力を防ぐためのおまじないです。
旧石器時代 日本 列島 において 確認 さ れ て いる 人類 の 歴史 は 、 約 10 万 年 ないし 約 3 万 年 前 まで さかのぼる 。