[问题] 找出文章中的数字跟对应的名词

楼主: PHONm (USA~USA)   2016-06-15 13:52:11
想要将文章中的数字找出来
譬如 文章中会出现很多次的
.....kobe 24,
.....james 23,
然后比对分析后就可以得出
kobe 是24
james 是23
请问有这种函示库可以用吗
我现在自己写是很笨的作法
1.先找出第一个出现的数字, (ex: xxx ooo xxx kobe 24 jump shot 的 2)
2.存下第一个出现数字往前20个字符的字串(xxx ooo xxx kobe)
以及对应的数字后结尾而成的数字串( 24 )
3.重复上面将整篇文章有数字的都抓下来
4.比对步骤2中储存同样对应24的字串
xxx ooo xxx kobe
ooo xxx ooo kobe
5.将相同的存下来 对应24 (kobe 24)
不知道有没有更好的函示库可以直接拿来用,感谢。
作者: ccvs (kisS x Sis)   2016-06-15 14:15:00
语意分析的工具很多啊
楼主: PHONm (USA~USA)   2016-06-15 14:43:00
有推荐的吗? 我找了一些 越找越多 Orz新手初学中 感觉自己写会比花时间找来的快 但又觉得这种东西应该很多人写过,而且会比我自己写得来的好 囧
作者: ripple0129 (perry tsai)   2016-06-15 16:11:00
你的规则不复杂,re写比较快,用别人的还要先研究api
楼主: PHONm (USA~USA)   2016-06-15 18:10:00
了解了! 感谢楼上分析
作者: ql4au04 (方便面)   2016-06-21 02:53:00
用bI-gram找完再回头对tf idf 自己写应该算快吧

Links booklink

Contact Us: admin [ a t ] ucptt.com