MeCab＋Pythonのセットアップ

MeCabをインストールしたのでそのメモです。MeCabの公式サイトと『Pythonによる日本語自然言語処理』を参考にさせていただきました。OSはMac OS 10.6です。

MeCabのインストール（mecab-0.98）

$ ./configure --with-charset=utf8
$ make
$ sudo make install

文字コードにUTF-8を指定しました。

辞書のインストール（mecab-ipadic-2.7.0-20070801）

$ ./configure --with-charset=utf-8
$ make
$ sudo make install

文字コードにUTF-8を指定しました。

Python用のバインディングをインストール（mecab-python-0.98）

$ sudo python setup.py install

動作テスト

次のような簡単なスクリプトを書いてテストしました。これも上記した２つのサイトを参考に書きました。出力は形態素だけにしています（-O wakati）。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys
import codecs
import MeCab

reload(sys)
sys.setdefaultencoding("utf-8")
sys.stdin = codecs.getreader("utf-8")(sys.stdin)
sys.stdout = codecs.getwriter("utf-8")(sys.stdout)

document = "旧石器時代日本列島において確認されている人類の歴史は、約10万年ないし約3万年前までさかのぼる。"

mecab = MeCab.Tagger("-O wakati")
output = mecab.parse(document)
print output,

次のような出力が得られました。なお，print文の最後のカンマは余計な改行の出力を防ぐためのおまじないです。

旧石器時代 日本 列島 において 確認 さ れ て いる 人類 の 歴史 は 、 約 10 万 年 ないし 約 3 万 年 前 まで さかのぼる 。