有没有对语言有研究的大大,用过snowball这套算法?
我们在做语言相关的研究,遇到一个很基本也很重要的问题
就是时态问题,过去式、原型、单复数...
为了简化处理,希望能把动词还原原型、复数还原单数
简单的ed、s、ly之类的都还算好处理,没有lib也可以自己算
网络上找了一阵,最多人讨论的就是snowball的算法,也有很多语言的lib
但是遇到y结尾的变化,他只是去ed而已
例如replied => repli,没有还原成reply
但是我们系统数据库通常是纪录 reply,这样就会match不到
但是像loving、loved这种又还原的很好成love
至于不规则变化,snowball看起来是完全不处理
想知道大家用snowball都是怎么用的?
我们的状况是会有很多单字的原型跟相关的资料
然后要对进来的资料mapping,给他相关资料
不论来的东西是原型、过去式、单复数,都要对的起来
或是我们也把自己的资料全部用snowball算一次存起来
然后进来的资料也用一样的算法处理,再一路mapping回原本的资料 XD
还是干脆自己建适合自己应用的表?