hakeの日記

Windows環境でプログラミングの勉強をしています。

「通信用語の基礎知識」のEPWING化

ちょっとしたネット用語やスラングを調べるのには最近はWikiPediaはてなを使う機会が増えていますが、ネットに接続していない状態ではこの辞書がまだまだ重宝します。ザウルスの辞書検索ソフトのZten改で使用しているのはFPWBOOKに登録されている辞書でしたが残念なことに2004年後期版以降更新されていません。
本家サイトでは2006年前期版が公開されているのでFPWBOOKの変換スクリプトで変換させようと調べてみたところ、どうもPC上のLinux(Unix)環境でないと使用できないっぽい。
本家サイトのデータをみると辞書の元データはSJISのテキストなんですね。そこでRubyスクリプトを書いてWindows環境で変換してみました。


といってもEPWINGの形式なんて知らないので、スクリプトでhtml形式へ変換後に定番の変換ツールであるEBStudioEPWING形式に変換することにします。

#ワンセグ放送
        [わんせぐ-ほうそう] <2006.03.31 X> <2005.10.14 A:marimo> 〔名詞〕
        ・地上デジタル放送のワンセグメント部分受信サービス. 携帯電話やカーナ

           (中略)

        ▼用語の所属
        ★地上デジタルテレビジョン放送

            (以下略)

<dt id="WDIC006920">ワンセグ放送</dt>
<key type="かな">わんせぐほうそう</key>
<dd>
[わんせぐ-ほうそう] &lt;2006.03.31 X&gt; &lt;2005.10.14 A:marimo&gt; 〔名詞〕<br>
・地上デジタル放送のワンセグメント部分受信サービス. 携帯電話やカーナ

   (中略)

▼用語の所属<br>
★<a href="WDIC005132">地上デジタルテレビジョン放送</a><br>

   (以下略)

</dd>

といった具合に変換させます。
EBStudioでの変換で元データがhtml形式でもプラグインを追加しての画像の埋め込みをできるみたいだけれども、あまりファイルサイズを増やしたくないので今回はテキスト情報のみで作成。
とりあえず8分野全部変換させて、index.htmlのサイズが約24MB、EPWING化したHONMONファイルのサイズが約28MBになりました。思ったよりもサイズが小さいですね、これなら画像を含むデータを作ってみてもよいかも。


スクリプト別館の我楽多置場に置きました。
WindowsRubyhttp://rubyforge.org/frs/?group_id=167 の1.8.2-15 Stable Release (ruby182-15.exe)を使用。