hakeの日記

Windows環境でプログラミングの勉強をしています。

ウィキペディアの辞書化 その2

半年ぶりにWikipediaのデータをEPWING辞書に変換しようとしたら、HONMONデータサイズが2GBを超えた影響でいろいろ手間取ったのでメモ。
変換環境はUbuntu 8.04LTS on Virtualbox。変換時間は前回と同様に約4〜5時間くらい、HONMONサイズは2.2GBでEBShrinkで最大圧縮をかけて950MB

データとツールの入手

事前準備

Ubuntu 8.04LTSでは、後述のPerlのConfigureで

/usr/bin/ld:crt1.o:No such file:No such file or directory

というエラーがでるので、予めThe GNU Standard C++ Library v3 (development files)をインストールしておく(Ubuntu日本語フォーラムの情報より)

$ sudo apt-get install libstdc++6-4.2-dev

Perlコンパイル

参考サイトの記述より

perl -V等で、Compile-time optionsにUSE_64_BIT_INTとUSE_LARGE_FILESが存在している事を確認してください。

Ubuntuに入っているPerlはUSE_64_BIT_INTが無かったのでソースからPerlコンパイルする必要あり。

$ ./Configure -Duse64bitint    複数回問い合わせがあるのでEnterを押下
$ make
$ make test
$ sudo make install            デフォルトでは/usr/local/の下

変換作業

freepwingとwikipedia-fpwの使い方は前回と同じ、ただしwikipedia-fpw.confの内容を以下の様に修正

'enable_math' => 0,

これが1だと数式も収録できるようなんだけれども、他の準備がよく判らないので今回は見送り。

変換後

パッケージ作成($ fpwmake package)がVirtualboxの仮想HDDの容量不足の為失敗。う〜ん、これ以上データサイズが肥大化したらVirtualbox上でのデータ変換は無理?

今回は各単体のファイルをWindows環境に持ってくる。ディレクトリ構成は以下のとおり。

WIKIP\WIKIP\DATA\HONMON
WIKIP\WIKIP\GAIJI\
WIKIP\CATALOGS
WIKIP\GFDL        このファイルが必要かは不明

あと、古いバージョンのEBWINだとサイズ肥大化の関係で検索が上手くできなかったので、現時点最新の3.02bに入れ直し。辞書圧縮も新しいバージョンEBWINの同梱品のEBShrinkで実施。