[问题] 想请教学网络爬虫前的预备知识有哪一些?

楼主: jamesxxx1997 (黄~)   2017-10-07 00:23:47
各位大大好,新手想在此请教一下,若想学习网络爬虫,有哪些先备知识要先会呢?
也想知道,应该学多深
(像是我知道好像要先学HTML和CSS,不过不清楚应该学到哪个程度,javascript亦然)
谢谢各位大大~
作者: neil987 (R5大小姐-EX人品崩坏)   2017-10-07 12:04:00
学会看youtube跟google查东西
作者: lizkarina (lizka)   2017-10-07 13:10:00
首先网络连线要懂一点,tcp/ip, udp. 怎么用socket.tls/ssl. http protocol(get,post...)/headers/cookieshttp status code. https(http over tls). 如果要取的资料用javascript生成,你就需要web driver.#webdriver. 再来看你取的资料是html,json,图片,影像或是音乐,再学相对应的知识。
楼主: jamesxxx1997 (黄~)   2017-10-07 18:09:00
谢谢neil大的解答,收获良多~好的,谢谢l大,你的意思是说其实这是一个很广泛的东西对吧,那我就先照你说的,学西一些网络连线的概念,感谢~
作者: sean50301 ( (づ′・ω・)づ)   2017-10-07 18:35:00
稍微了解一下css跟xpath就可以爬简单的网页了
作者: areyo (没有名字的怪物)   2017-10-07 19:16:00
大数学堂
作者: f496328mm (为什么会流泪)   2017-10-08 06:37:00
https://goo.gl/V41YL2学爬虫 推荐这串影片 讲得蛮好的
作者: goldflower (金色小黄花)   2017-10-08 16:07:00
大数学堂无敌 真的应该不会看到比这边还详细的影片了
作者: vi000246 (Vi)   2017-10-08 16:24:00
正规表达式也可以学一下 会方便很多
作者: f496328mm (为什么会流泪)   2017-10-09 00:34:00
正规可以说是必备
楼主: jamesxxx1997 (黄~)   2017-10-09 13:17:00
恩恩,现在正在学正规表达式(re模组)谢谢各位的指导XDD
作者: mantour (朱子)   2017-10-20 20:27:00
先找一个你想爬的网站,然后用到什么学什么

Links booklink

Contact Us: admin [ a t ] ucptt.com