Linux Mintの日本語入力Mozc変換精度を上げる地道な積み重ね〜LMDE6でPanasonic Lets’note CF-SZ6を活用する

Linux Mintのロゴ画像 Linux

Let’s note CF-SZ6RにLinux Mint Debian Edition 6をインストールして快適に使用しています。やや窮屈に感じていたキーボードにも慣れてくるもので、タイプミスもほとんどしなくなって来ました。

こうなってくると日本語変換の精度が重要になってきます。一発で変換が決まると気分が良いですが、文節を適切に認識してくれない場合はちょっとイラッとしてしまいます。使っている日本語入力環境は、Linux Mintが標準的にインストールを勧めてくる「Fcitx5」+「Mozc」です。

特にMozcは日本語変換精度に関わってくるので重要だったりします。debianで使ってきたユーザー登録辞書をエクスポートして、それをMozcにインポートして使用していますので、単語に関しては良く使用する文字は変換してくれます。

Mozcプロパティの設定

私はかなり昔からATOKを使ってきたので、日本語変換のキー設定はATOKが好みです。WindowsのIMEなんかもATOKを選べる様になっていますから、ATOKをインストールしていなくても「ATOK」キーを選んで設定しています。

学生の頃にモールス信号を聞いて、タイプライターでタイピングするという授業を受けていたので、欧文に関してはブラインドタッチが出来ます。しかし和文タイピングはやってないので身につけていません。よって基本設定は「ローマ字入力」を選ぶことになります。和文タイプができる人は「かな入力」を選ぶことになると思いますが、汎用性が高いのはローマ字入力だろうと思っています。基本的に不自由は感じていません。

この辺りは人それぞれ好みや慣れもあると思うので、使いやすい設定にするのが第一歩ですね。私はすぐにATOKに切り替えますがほぼ基本設定のままです。

ユーザー辞書の充実が重要

Linux環境でMozcを使用する場合は、Google日本語入力の様に活性度の高い単語が出てくる訳ではありませんので、ユーザー辞書を充実させてやる必要性があります。Google日本語入力は辞書が強力なので芸能人の名前や流行っている言葉等も的確に変換出来ます。Mozcはその辺り確実に劣っている訳です。

特に仕事なんかで使っていると多用する用語などは専門性のある言葉だったりするので、ユーザー辞書は充実させる意味が有ります。一度辞書登録してしまえば優先的に変換候補として出てくるので入力が捗ります。

地名なんかも良く使用するものはガシガシ登録してやると、すんなり候補として出してくれるので変換精度(効率)が高くなります。その際に品詞をきちんと設定してやると文節を上手く認識してくれる確率が上がるので、ユーザー辞書のメンテナンスはとても重要だったりします。

ATOKの場合はユーザー辞書に自動で学習した単語を登録してくれたりしますが、間違った変換や登録してくれる必要の無い単語が登録されたりします。ATOKを使っていた頃は時々クリーニングをして余計な自動登録単語は削除していました。自動登録された単語で使いたいものは品詞を適切に選んで、登録単語として保存してました。

Mozcの場合はユーザー辞書には自動登録してくれないので、学習機能の頼ることになります。学習内容をメンテナンス出来たら良いのですが、Mozcの仕様では見えないので学習結果をクリーニングしたりカスタマイズするのは容易ではなさそうです。

間違えた学習をした場合は、学習履歴のクリアで飛ばすことができるみたいなので、日頃から正しい日本語変換を学習させる意識も必要っぽいです。

サジェスト機能はおそらくデフォルトで有効になっていると思いますが、私はこれも意識して積極的に使用しています。この辺りも変換候補が正しく表示されると快適なので、意識的に機能を活用しています。変なサジェストが出てくるようになったらクリアさせてやり直すのも一案です。

Mozcが学習を進めている様子は、/home/username/.config/mozc/の中にdbファイルとして保存されていて更新がかかっています。残念ながらバイナリファイルなので専用のツールが無いと内容を確認することも出来ません。

もしこれらのファイルの更新日時が新しくならない場合は、学習機能が無効になっていないか確認した方が良いです。学習機能が無効になっていると何度も同じ文章を変換しても学習してくれないのでイライラさせられます。

学習が進むと長文を正しく分節変換してくれる

辞書を充実させ、Mozcの学習が進んでくると、句読点変換(機能)を有効にしていれば、一気にタイピングした場合でも文節をしっかり認識して変換してくれるので気分が良いです。

タイピングを少しでも少なくしたい人はこまめに変換してサジェストを活用しながら少しずつ文章を確定させていくことになると思いますが、私の場合は学習が進んだ日本語入力の場合は一気に入力して句読点で自動変換させたりしています。

これがきっちり変換してくれるまで学習してくれれば、タイピングが心地よい作業になってくるので不思議なものです。学習状態を保存して不要な学習をクリアするなどのメンテナンスが出来れば最高なのですが、現在のMozcにはそこまでの機能はありません。

変換を自分好みにする抑制単語の活用

Mozc辞書には、変換候補として表示させたくない「抑制単語」を辞書登録することが出来ます。ブログ記事を書いていると意図的に送り仮名としてひらがなを使いたい場合が合ったりして、こういう使い方は文章を書く人のクセというか独自表現になるので、自分流に「抑制単語」を活用すると、Mozcが良い感じに変換候補を出してくれます。

MozcだけでなくGoogle日本語入力用のユーザー辞書としても使用できるので、このテクニックは割と多くの文章を書く人に有効だと思います。

Github-akirakuboさんの、「Mozc(Google日本語入力)用交ぜ書き抑制辞書」が実例として参考になります。この例は交ぜ書きを抑制する目的で「抑制単語」をユーザー辞書として登録して変換候補に表示されない様にしている例です。簡単に試せるので一度実際にやってみると体感的に学習できて直ぐに応用に移れると思います。

実例を紹介しておくと、「あいかぎ」を変換すると、「合いかぎ」「合かぎ」が抑制されるので「合い鍵」や「合鍵」が候補として上位に出てきます。一度学習させると次から「合い鍵」や「合鍵」が優先されます。

もちろんコレは使用例であって、そのまま自分の用途にマッチするとは限らないので、参考にさせて貰いつつ登録辞書を自分流にカスタマイズしてアレンジを進めていくことが重要です。言うまでもないと思いますが、逆に送り仮名をつかった変換候補を優先させたい場合は、辞書を編集して逆に「合い鍵」や「合鍵」を抑制単語として登録すれば実現できます。

ユーザー辞書は財産

ユーザー辞書の充実が重要ということは最初の方でも触れましたが、Mozcの場合はとても重要だと思っているので、これは財産(資産)だと思って定期的ににバックアップを取り、別の端末にもインポート、エクスポートしてやり取りして充実させるのがポイントだと思います。

せっかく登録したユーザー辞書を活用しないのはもったいないです。エクスポート機能を活用して定期的にバックアップを取りましょう。そして複数台のPCで使用するなら進んでいる方の辞書を取り込んで更に強化して、それをまたバックアップして行き来させるのが良いでしょう。(それらをマージさせる)

もう何年もMozcを使っているのでユーザー辞書には必要な単語はたくさん登録していますが、今回、LMDE6をLet’s noteで使用することになって、普段と違う単語を使用することがあるので学習させています。

どんどん賢くなってくるMozcが使いやすくなってより快適な日本語入力環境が手に入ります。クラウドから辞書を取得するGoogle日本語入力の強力さには敵いませんが、それでも着実に洗練されていくMozcにはやはり期待したいものです。将来的にAIの技術などを取り入れて画期的な進化を遂げてくれるんじゃないかなと願っていますが、Googleが本家なのでその前にGoogle日本語入力が画期的に進化することでしょうね。

コメント

Comment spam is annoying.

There has been an increase in comment spam, but we decline it. It’s pointless because we use Akismet to block spam comments. Spam comments will not be posted.

コメントスパムが増えていますがお断りします。akismetでスパムコメントを弾いているので無意味です。スパムコメントは掲載されません。

ブロックしたスパム

DMM広告

タイトルとURLをコピーしました