hakeの日記

Windows環境でプログラミングの勉強をしています。

ウィキペディアの辞書化 その4

変換環境は前回と変わらずです。元データは、9月27日版を使用しました。変化ツールは、Kazuhiro's blogさんからwikipedia-fpw-20090831-src.tar.gzを入手して使用しました。今回は読み(ひらがな)で検索できるようになりました。収録項目数とサイズは以下のとおり、圧縮後はEBwin 3.03付属のEBShrinkでレベル5圧縮したデータです。

  • エントリー数  1216511
  • honmon     2498844672Byte
  • honmon(shrink) 1079081341Byte

wikipedia-fpw.confの設定(抜粋)

# 0にすると相互参照が無効になります。
# 1にすると相互参照が有効になります。
# 2にすると1ぺージ内からの参照先がユニークなもののみ有効にします。
#
  'enable_reference' => 1,

#
# 0 にすると数式を収録しません。
# 1 にすると数式を収録します。

  'enable_math' => 1,

#
# mimtex のコマンド名を指定します。
# パスが通っていない場合はフルパス名で指定してください。
#
  'mimetex' => '/home/user/mimetex/mimetex.cgi',
  # 'mimetex' => '/usr/pkg/libexec/cgi-bin/mimetex.cgi',

#
# 0 にすると数式を収録する際に白地に黒文字の画像にします。
# 1 にすると数式を収録する際に黒地に白文字の画像にします。
#
  'math_black' => 0,

#
# 1 にすると本文からよみがなを探して検索語への登録を試みます。
#
  'yomigana' => 1,

その3と同じ環境にも関わらず、変換時間が7時間半かかりました。サイズが増えたというのもあるのでしょうが、ひらがなのインデックス作成に時間がかかったのではないかと思います。読みによる検索が必要なければこの機能は無効にした方が良いかもしれません。