ウィキペディアの辞書化 その2
半年ぶりにWikipediaのデータをEPWING辞書に変換しようとしたら、HONMONデータサイズが2GBを超えた影響でいろいろ手間取ったのでメモ。
変換環境はUbuntu 8.04LTS on Virtualbox。変換時間は前回と同様に約4〜5時間くらい、HONMONサイズは2.2GBでEBShrinkで最大圧縮をかけて950MB
データとツールの入手
- ウィキペディアのサイトからjawiki-latest-pages-articles.xml.bz2を入手、今回のは5月13日版で約940MB
- FreePWING入手。今回はfreepwing-1.6.tar.bz2
- Kazuhiro's blogさんからwikipedia-fpw-20090428-src.tar.gzを入手。変換手順の詳細はこちらのサイトで確認
事前準備
Ubuntu 8.04LTSでは、後述のPerlのConfigureで
/usr/bin/ld:crt1.o:No such file:No such file or directory
というエラーがでるので、予めThe GNU Standard C++ Library v3 (development files)をインストールしておく(Ubuntu日本語フォーラムの情報より)
$ sudo apt-get install libstdc++6-4.2-dev
Perlのコンパイル
参考サイトの記述より
perl -V等で、Compile-time optionsにUSE_64_BIT_INTとUSE_LARGE_FILESが存在している事を確認してください。
Ubuntuに入っているPerlはUSE_64_BIT_INTが無かったのでソースからPerlをコンパイルする必要あり。
$ ./Configure -Duse64bitint 複数回問い合わせがあるのでEnterを押下 $ make $ make test $ sudo make install デフォルトでは/usr/local/の下
変換作業
freepwingとwikipedia-fpwの使い方は前回と同じ、ただしwikipedia-fpw.confの内容を以下の様に修正
'enable_math' => 0,
これが1だと数式も収録できるようなんだけれども、他の準備がよく判らないので今回は見送り。
-
-
- その3で収録をしました。
-
変換後
パッケージ作成($ fpwmake package)がVirtualboxの仮想HDDの容量不足の為失敗。う〜ん、これ以上データサイズが肥大化したらVirtualbox上でのデータ変換は無理?
-
- Viturlboxを確認したところ、新規の仮想HDDを追加する際に2TBまでの容量が選べそう。とりあえずVirtualbox自体も最新にしておいた方が良いかも
今回は各単体のファイルをWindows環境に持ってくる。ディレクトリ構成は以下のとおり。
WIKIP\WIKIP\DATA\HONMON WIKIP\WIKIP\GAIJI\ WIKIP\CATALOGS WIKIP\GFDL このファイルが必要かは不明
あと、古いバージョンのEBWINだとサイズ肥大化の関係で検索が上手くできなかったので、現時点最新の3.02bに入れ直し。辞書圧縮も新しいバージョンEBWINの同梱品のEBShrinkで実施。
- EBWIN入手先