hakeの日記

Windows環境でプログラミングの勉強をしています。

標準日本語辞書変換の効率化

久しぶりにザウルス標準の日本語IMEを使用しています。で、感じたこと、標準のIMEってこんなに軽いんだ〜ってことです。最近のAnthyは少々重くなりすぎのきらいがあるので思いはひとしおです。
標準のIMEを使用してみた理由は、りなざうテクノウさんの掲示板経由でzautaleさんのサイトを発見したからです。標準の辞書でも品詞情報つきで単語登録できるのですね。標準辞書の欠点であるアホな学習機能はgakuoffで対策できるとして、変換の貧弱さはこちらのツールで改善可能ということで実験。


「インターネット」をサ変名詞で登録してみました。登録前は以下の様に一発目の変換では誤変換する場合があります。

いんたーねっとしない	→	インター|ネット|しない
いんたーねっとします	→	インター|ネット|します
いんたーねっとした	→	インター|ネット|下
いんたーねっとする	→	インター|ネット|する
いんたーねっとすれば	→	インター|ネット|すれば
いんたーねっとしろ	→	インター|ネット|白
いんたーねっとしたい	→	インター|ネット|死体
いんたーねっとされる	→	インター|ネット|される

「|」は変換区切り

そこでtest.csvというファイルを作成(文字コードS-JIS)

"いんたーねっと","インターネット","サ変名詞"

zautaleさんのツールを使用してユーザー辞書に登録(ツールの使用には別途perlをインストールしておく必要あり)

$ ./addzaudic test.csv

したところ、誤変換はしなくなりました。また変換区切りも無くなって一つの固まり(文節っていうのでしょうか?)として変換されます。これならは上手く単語登録をすればかなり使い勝手が良くなるのではないでしょうか。
登録した単語は設定タブのユーザー辞書に反映されるのでここから削除もできますね。CSVファイルはS-JISなのでPC上のエクセル等で作成すれば簡単だと思います。当然ながら登録する単語数には制限がありますけど普通の使用では問題ないかと思います。ただし長い文章の一括変換では誤変換する場合もあるので、あるいはgakuoffは使用しない方が使い易いかもしれません。



試しに品詞情報付きで学習させて暫く使用してみようと思います。欠点としてOperaやターミナルで入力ができない(解決方法はあるが好みではない)のでAnthyとは併用使用になりますか。
Anthyの起動は[前/半]キーに割り当ててあるので、標準IMEの切替は[Fn]+[前/半]キーで。