pdftotextを日本語で使うためのセットアップ、メモ。
VineLinux2.1.5で、pdftotext(Xpdfのオマケ(?))の新しいヤツを使いたかったのだが、xpdf-2.02-0vl0.1.i386.rpm(VineLinux2.5用らしい)を取ってきて入れようとすると、
と怒られるので、ソースからビルド、メモ。(前にビルドしようとしてメゲた記憶があるので、リベンジ。(笑
# rpm --test -i xpdf-2.02-0vl0.1.i386.rpm
エラー: 依存性の欠如:
t1lib >= 5.0.0は xpdf-2.02-0vl0.1 に必要とされています
openMotifは xpdf-2.02-0vl0.1 に必要とされています
OpenType-kochiは xpdf-2.02-0vl0.1 に必要とされています
libXm.so.3は xpdf-2.02-0vl0.1 に必要とされています
libfreetype.so.6は xpdf-2.02-0vl0.1 に必要とされています
libstdc++-libc6.2-2.so.3は xpdf-2.02-0vl0.1 に必要とされています
libt1.so.5は xpdf-2.02-0vl0.1 に必要とされています
libc.so.6(GLIBC_2.2)は xpdf-2.02-0vl0.1 に必要とされています
1で終了しました
xpdf-2.03.tar.gzとxpdf-japanese.tar.gzを持ってきて、~/work以下(自分の趣味)に解凍する。
まずは、~/work/xpdf-2.03以下で
すると、
$ ./configure
とか怒られるが今回欲しいのは、pdftotextだけなので気にしない。
configure: WARNING: Couldn't find X / Motif -- you will be able to compile
pdftops, pdftotext, pdfinfo, pdffonts, and pdfimages, but not xpdf
でバイナリは出来上がり。(csh系な人はrehashするのがベター。
$ make pdftotext
$ su
# cp -p pdftotext /usr/local/bin←-pオプションは趣味。
(manがないのは気にしない。(ぉぃ
あとは、
設定ファイルをコピーするのを忘れないように。
# cp -p doc/sample-xpdfrc /usr/local/etc/xpdfrc
次に日本語サポートパッケージ。
~/work/xpdf-japanese以下で、
これだと要らないファイルまでコピーされるけど、気にしない。
# mkdir /usr/local/share/xpdf
# mkdir /usr/local/share/xpdf/japanese
# cp -pr * /usr/local/share/xpdf/japanese/
# cat add-to-xpdfrc >> /usr/local/etc/xpdfrc
(ルートでcpコマンドで-r(再帰)オプション付きの*は、カレントディレクトリがおかしいとエライことになるので、初心者は要注意&あくまで自己責任でお願いします。>試される方
以上でOK。(と思う。
試しに日本語を含むPDFファイルを出力してみる。
こんな感じ。(/usr/local/binにパスが通ってる前提。
$ pdftotext -enc EUC-JP -raw hoge.pdf - | more
なお、段組みがしてあるPDFは崩れたり(文字列の順番がおかしい等)とか、著作権保護(?)がしてあるPDFは表示されなかったりするけど、まあそれは仕様と言うことで気にしない。
補足:
0.92の頃のXpdfは、./configure時に--enable-japaneseオプションが必要だったようですが、今のバージョンでは不要のようです。(確認しましたがイマイチ自信なし。
Xpdf公式サイト(と思う):
最新版が出ていないかチェックするべきサイト(ダウンロードもここ):
セキュリティ情報:
参考にさせていただいたサイト:
ありがとうございます。