茶筅、セットアップ、メモ。

Windows版はバイナリを持ってくればすぐ動くけど、Unix環境ではmakeする必要がある(バイナリ配布もあるかも知れないけど)ので、セットアップ、メモ。
環境は例によって、Vine Linux 2.1.5。
用意するモノは次の通り。


chasen-2.3.3.tar.gz
darts-0.2.tar.gz
ipadic-2.6.3.tar.gz
libiconv-1.9.1.tar.gz←システムに標準装備されてない場合(?)
これらを予め~/work以下(←趣味)に解凍する。
まずは、Dartsから。~/work/darts-0.2以下で。

$ ./configure
$ make
$ make check
# su
# make instal
次に、libiconv。~/work/libiconv-1.9.1以下で。

$ ./configure
$ make
# su
# make instal
さらに茶筅。~/work/chasen-2.3.3以下で。

$ ./configure
$ make
# su
# make instal
最後に辞書。~/work/ipadic-2.6.3以下で。

$ ./configure
$ make
# su
# make instal
/usr/local/etc/chasenrcに設定ファイルが作られる。
/usr/local/bin/以下の、chasenchasen-configが実行ファイル。
簡単ですね。と思ったが二つ疑問点が発生。

  • libiconvが標準装備されてない(と思われる)環境で、libiconvをビルド&インストールしないで、(茶筅等を)ビルドした場合も、茶筅(少なくとも形態素解析)が問題なく動いている(ように見える)点。
  • ipadic2.6.3のユーザーズマニュアル(PDF)では、ユーザー辞書の再コンパイル時にmakeint後にmakedaするよう指示されているが、makeintコマンドがどこにも見当たらない点。

とゆ〜わけで、前者については、動けばおっけ〜としても、後者がちょっと気になります。ただし、ipadic2.7.0のユーザーズマニュアル(PDF)では、makeintについての記述がないので、単に不要になっただけかも知れません。(ぐぐってもよく分からない...
とりあえず、今日のところはここまで。


次の理由により、やはり、単に不要になっただけのようです。>makeint

  • chasen-2.3.1では存在するのに、chasen-2.3.2以降では存在しないので。
  • makedaコマンドのみでユーザー辞書をコンパイル出来たので。
  • そのユーザー辞書を使った形態素解析も出来たので。

ちなみに、chasen-2.3.1のビルドは


$ ./configure --with-iconv=/usr/local/lib
$ make
で出来ました。また、chasen-2.3.2のビルドは

$ ./configure
$ make
で出来ました。(以上、自分の環境の場合。

ちなみに、辞書の作り方は、/home/hoge/mychadic/とかに


(品詞 (名詞 一般)) ( (見出し語 (歩解 4000) ) (読み ほげ) (発音 ほげ) )
(品詞 (名詞 一般)) ( (見出し語 (歩解歩解 4000) ) (読み ほげほげ) (発音 ほげほげ) )
(品詞 (名詞 一般)) ( (見出し語 (歩解歩解歩解 4000) ) (読み ほげほげほげ) (発音 ほげほげほげ) )
といった形式でファイル名“Noun2.dic”とかに保存し、カレントディレクトリに辞書ファイルがある状態で、

$ /usr/local/libexec/chasen/makeda -i e chadic *.dic
とし、さらに環境設定ファイルとして、

cp /usr/local/etc/chasenrc /home/hoge/.chasenrc
して、.chasenrc内の

(DADIC chadic)
と書かれた行を、

(DADIC chadic /home/hoge/mychadic/chadic)
とすれば、OKのようです。
(11/21追記)

茶筅公式サイト:

ダウンロード場所:

気になる記事:



編集履歴
2004/3/5、辞書の作り方でカッコの表示が正しくなかったのを修正。