Ludia1.4.0 その2
co-sakaです。おはようございます。
検索してもヒットしないよ、という問い合わせで毎回のように尋ねるのが、
「MeCabの文字コードとDBの文字コードは一致してますか?」
というもの。
毎回のように尋ねるのが面倒になってきた。
やっぱりインデックス作成の際に、文字コードが一致しているか調べるべき。
MeCabの文字コードは、
MECAB_DLL_EXTERN const mecab_dictionary_info_t* mecab_dictionary_info(mecab_t *mecab);
で調べられる。
そこで問題になるのは、Ludiaから直接MeCabを呼べないこと。
LudiaがSennaを呼んで、SennaがMeCabを呼ぶ形態になっている。
ふむ、LudiaからもMeCabを呼べるようにしてしまおうか。
その時はSennaが呼ぶMeCabと、Ludiaが呼ぶMeCabが別の物にならないよう、
注意する必要ありだな。
SennaのconfigureオプションでMeCabをOFFに設定できるのも注意事項として抑えておこう。
良いアイデアがある人、コメントください。
TritonnのようにN-gramをデフォルトにするのも手かな・・・。
OSC2007 Tokyo/Fall 出展まとめと今後の方向性(NGRAMデフォルト) - mir the developer