[问题] 非结构化资料结构化?

楼主: Nancy010006 (Nancy)   2017-11-13 20:01:05
各位版上大大好
最近修了一门课 老师希望我们做一个网站出来
原本想说用爬虫去抓 就用了PYTHON来做
我的想法是
同学目前都只能透过FB上的某个校内打工媒合的社团来找工作
那我就做一个类似104的那种媒合网站出来
老师建议我可以从FB的社团先将资料捞出来SHOW在我打算新建出来的网站上
这样可以让大家更快的想要来使用这个网站而不是从0篇文章开始要慢慢等
于是我找了FB的API 目前可以将社团的贴文作者时间种种抓出来
可是 完全不知道要怎么进行结构化....
贴文可能长成以下这样
1.
*日月潭OO*
诚征 寒假民宿小帮手
工作内容:客房与环境整理,协助厨房出餐
工作地点:南投.....
工作时间:寒假春节
薪资待遇:133/hr,春节加倍薪
性别:不拘
官网:http://www.sunm...............
有兴趣的同学再欢迎私讯或加line:XXXXXOOOO 刘先生
感谢~~
2.
<代PO>诚征
XX补习班诚征 课辅助理老师
工作内容:批改作业,协助指导国小学生完成功课
地点:XX镇XX路XX号
上班时间:12点30到3点30 (星期一五OR一四五,)
工作气氛超友善,小朋友乖巧
薪资:133元/时
意者请洽09OOOOOOOO
我主要需要将工作名称 工作时间 工作薪资 联络方式 抓出来塞进数据库
但是因为每篇PO文都有些许差异 像是工作薪资就有可能是薪水 薪资 每日工资 种种
但是找了很久都想不到应该怎么做
有找过JIEBA之类的 但是也想不到该怎么用
很好奇真的是可行的吗!?
作者: f496328mm (为什么会流泪)   2017-11-13 23:23:00
我也想问类似问题
作者: TakiDog (多奇狗)   2017-11-13 23:58:00
社团上格式不要差太多 应该都可以硬A出来
作者: froce (froce)   2017-11-14 11:28:00
同义词列表。

Links booklink

Contact Us: admin [ a t ] ucptt.com