pdftotextを日本語で使うためのセットアップ、メモ。

VineLinux2.1.5で、pdftotext(Xpdfのオマケ(?))の新しいヤツを使いたかったのだが、xpdf-2.02-0vl0.1.i386.rpm(VineLinux2.5用らしい)を取ってきて入れようとすると、


# rpm --test -i xpdf-2.02-0vl0.1.i386.rpm
エラー: 依存性の欠如:
t1lib >= 5.0.0は xpdf-2.02-0vl0.1 に必要とされています
openMotifは xpdf-2.02-0vl0.1 に必要とされています
OpenType-kochiは xpdf-2.02-0vl0.1 に必要とされています
libXm.so.3は xpdf-2.02-0vl0.1 に必要とされています
libfreetype.so.6は xpdf-2.02-0vl0.1 に必要とされています
libstdc++-libc6.2-2.so.3は xpdf-2.02-0vl0.1 に必要とされています
libt1.so.5は xpdf-2.02-0vl0.1 に必要とされています
libc.so.6(GLIBC_2.2)は xpdf-2.02-0vl0.1 に必要とされています
1で終了しました
と怒られるので、ソースからビルド、メモ。(前にビルドしようとしてメゲた記憶があるので、リベンジ。(笑
xpdf-2.03.tar.gzとxpdf-japanese.tar.gzを持ってきて、~/work以下(自分の趣味)に解凍する。
まずは、~/work/xpdf-2.03以下で

$ ./configure
すると、

configure: WARNING: Couldn't find X / Motif -- you will be able to compile
pdftops, pdftotext, pdfinfo, pdffonts, and pdfimages, but not xpdf
とか怒られるが今回欲しいのは、pdftotextだけなので気にしない。

$ make pdftotext
$ su
# cp -p pdftotext /usr/local/bin←-pオプションは趣味。
でバイナリは出来上がり。(csh系な人はrehashするのがベター。
(manがないのは気にしない。(ぉぃ
あとは、

# cp -p doc/sample-xpdfrc /usr/local/etc/xpdfrc
設定ファイルをコピーするのを忘れないように。
次に日本語サポートパッケージ。
~/work/xpdf-japanese以下で、

# mkdir /usr/local/share/xpdf
# mkdir /usr/local/share/xpdf/japanese
# cp -pr * /usr/local/share/xpdf/japanese/
# cat add-to-xpdfrc >> /usr/local/etc/xpdfrc
これだと要らないファイルまでコピーされるけど、気にしない。
(ルートでcpコマンドで-r(再帰)オプション付きの*は、カレントディレクトリがおかしいとエライことになるので、初心者は要注意&あくまで自己責任でお願いします。>試される方

以上でOK。(と思う。
試しに日本語を含むPDFファイルを出力してみる。


$ pdftotext -enc EUC-JP -raw hoge.pdf - | more
こんな感じ。(/usr/local/binにパスが通ってる前提。
なお、段組みがしてあるPDFは崩れたり(文字列の順番がおかしい等)とか、著作権保護(?)がしてあるPDFは表示されなかったりするけど、まあそれは仕様と言うことで気にしない。

補足:
 0.92の頃のXpdfは、./configure時に--enable-japaneseオプションが必要だったようですが、今のバージョンでは不要のようです。(確認しましたがイマイチ自信なし。


Xpdf公式サイト(と思う):

最新版が出ていないかチェックするべきサイト(ダウンロードもここ):

セキュリティ情報:

参考にさせていただいたサイト:

ありがとうございます。