茶筅、セットアップ、メモ。
Windows版はバイナリを持ってくればすぐ動くけど、Unix環境ではmakeする必要がある(バイナリ配布もあるかも知れないけど)ので、セットアップ、メモ。
環境は例によって、Vine Linux 2.1.5。
用意するモノは次の通り。
これらを予め~/work以下(←趣味)に解凍する。
chasen-2.3.3.tar.gz
darts-0.2.tar.gz
ipadic-2.6.3.tar.gz
libiconv-1.9.1.tar.gz←システムに標準装備されてない場合(?)
まずは、Dartsから。~/work/darts-0.2以下で。
次に、libiconv。~/work/libiconv-1.9.1以下で。
$ ./configure
$ make
$ make check
# su
# make instal
さらに茶筅。~/work/chasen-2.3.3以下で。
$ ./configure
$ make
# su
# make instal
最後に辞書。~/work/ipadic-2.6.3以下で。
$ ./configure
$ make
# su
# make instal
/usr/local/etc/chasenrcに設定ファイルが作られる。
$ ./configure
$ make
# su
# make instal
/usr/local/bin/以下の、chasenとchasen-configが実行ファイル。
簡単ですね。と思ったが二つ疑問点が発生。
- libiconvが標準装備されてない(と思われる)環境で、libiconvをビルド&インストールしないで、(茶筅等を)ビルドした場合も、茶筅(少なくとも形態素解析)が問題なく動いている(ように見える)点。
- ipadic2.6.3のユーザーズマニュアル(PDF)では、ユーザー辞書の再コンパイル時にmakeint後にmakedaするよう指示されているが、makeintコマンドがどこにも見当たらない点。
とゆ〜わけで、前者については、動けばおっけ〜としても、後者がちょっと気になります。ただし、ipadic2.7.0のユーザーズマニュアル(PDF)では、makeintについての記述がないので、単に不要になっただけかも知れません。(ぐぐってもよく分からない...
とりあえず、今日のところはここまで。
(11/21追記)
次の理由により、やはり、単に不要になっただけのようです。>makeint
- chasen-2.3.1では存在するのに、chasen-2.3.2以降では存在しないので。
- makedaコマンドのみでユーザー辞書をコンパイル出来たので。
- そのユーザー辞書を使った形態素解析も出来たので。
ちなみに、chasen-2.3.1のビルドは
で出来ました。また、chasen-2.3.2のビルドは
$ ./configure --with-iconv=/usr/local/lib
$ makeで出来ました。(以上、自分の環境の場合。
$ ./configure
$ makeちなみに、辞書の作り方は、/home/hoge/mychadic/とかに
といった形式でファイル名“Noun2.dic”とかに保存し、カレントディレクトリに辞書ファイルがある状態で、
(品詞 (名詞 一般)) ( (見出し語 (歩解 4000) ) (読み ほげ) (発音 ほげ) )
(品詞 (名詞 一般)) ( (見出し語 (歩解歩解 4000) ) (読み ほげほげ) (発音 ほげほげ) )
(品詞 (名詞 一般)) ( (見出し語 (歩解歩解歩解 4000) ) (読み ほげほげほげ) (発音 ほげほげほげ) )とし、さらに環境設定ファイルとして、
$ /usr/local/libexec/chasen/makeda -i e chadic *.dicして、.chasenrc内の
cp /usr/local/etc/chasenrc /home/hoge/.chasenrcと書かれた行を、
(DADIC chadic)とすれば、OKのようです。
(DADIC chadic /home/hoge/mychadic/chadic)
茶筅公式サイト:
ダウンロード場所:
- http://chasen.aist-nara.ac.jp/chasen/distribution.html.ja
- http://cl.aist-nara.ac.jp/~taku-ku/software/darts/
- http://www.gnu.org/software/libiconv/#downloading
気になる記事:
編集履歴:
2004/3/5、辞書の作り方でカッコの表示が正しくなかったのを修正。