[问题] 爬虫请益

楼主: boboye (me)   2020-05-14 23:44:46
各位好:
想请教我在爬台大医院网页
我想从依医事人员姓名挂号页面中的挂号连结在爬到网络预约挂号的页面
图一是我已经爬完得到的结果
终极目标希望可以完成辨识直接挂号
因为要图像辨识这部分我还不会
想请问:
是否可以从图二的结果爬完的结果
(我的作法是直接用request硬解,如图五)
得知图三的挂号连结
目前看到的资讯:
我想图三的地方需要用到图二的cookie应该还有医生姓名诊别资讯
但这部分我猜需要用到回传的那些ID但不知道要怎么兜
刚初学对这类动态的产生的网页不太会看,又不知道是不是要用webdriver
而selenium又是我不太熟的部分orz..再请各位指导,感谢
https://imgur.com/a/2sgGp0e
作者: k010506k (k010506k)   2020-05-15 01:46:00
你好像只有一张图耶
作者: chia0712 (掐子)   2020-05-15 01:57:00
Selenium 会不会比较合用?到时候挂号送出一个超长formdata,request就爆了
作者: TakiDog (多奇狗)   2020-05-15 04:11:00
我觉得Selenium是不太优的爬虫解法,对没有复杂js或复杂的反爬,requests很万用先确定好需要request哪些资料,哪些资料又是由哪个网页产生的
楼主: boboye (me)   2020-05-15 07:53:00
我把一些截图全部放同一张,有间隔分开,由上到下有五张手机看有点小,下次还是分开贴,不好意思
作者: TakiDog (多奇狗)   2020-05-15 07:56:00
你用session 你的cookie就会往下带了我可能看不懂你的问题,你在图二找到带有你图三的资料的封包,丢过去后看要不要parse
楼主: boboye (me)   2020-05-15 08:11:00
t 大你好,我的问题简单说如何从图二挂号连结再转到图三,谢谢
作者: TakiDog (多奇狗)   2020-05-15 08:14:00
你只是需要同一份cookie ,可以看看requests session
楼主: boboye (me)   2020-05-15 08:16:00
好的,我再来试试,谢谢
作者: vi000246 (Vi)   2020-05-15 18:23:00
我也不喜欢selenium 都用request硬解
作者: salmon12706 (Ellen)   2020-06-29 16:17:00
工研院人工智能课程推荐https://reurl.cc/4RDRaK

Links booklink

Contact Us: admin [ a t ] ucptt.com