Ludia1.4.0 その2

co-sakaです。おはようございます。


検索してもヒットしないよ、という問い合わせで毎回のように尋ねるのが、
MeCab文字コードとDBの文字コードは一致してますか?」
というもの。


毎回のように尋ねるのが面倒になってきた。
やっぱりインデックス作成の際に、文字コードが一致しているか調べるべき。
MeCab文字コードは、
MECAB_DLL_EXTERN const mecab_dictionary_info_t* mecab_dictionary_info(mecab_t *mecab);
で調べられる。


そこで問題になるのは、Ludiaから直接MeCabを呼べないこと。
LudiaがSennaを呼んで、SennaMeCabを呼ぶ形態になっている。
ふむ、LudiaからもMeCabを呼べるようにしてしまおうか。
その時はSennaが呼ぶMeCabと、Ludiaが呼ぶMeCabが別の物にならないよう、
注意する必要ありだな。
SennaのconfigureオプションでMeCabをOFFに設定できるのも注意事項として抑えておこう。


良いアイデアがある人、コメントください。
TritonnのようにN-gramをデフォルトにするのも手かな・・・。
OSC2007 Tokyo/Fall 出展まとめと今後の方向性(NGRAMデフォルト) - mir the developer