分享一些从爬虫开发角度
看这件事情的想法
1. SPA网站
2.
request与response都打乱,迫使爬虫开发必须爬JS找入口, 否则api吐回来也是一堆看不
懂的大便
3.
JS打乱是一定要,不只工具打乱,开发上也故意写得可读性很差。
4.
让JS在IE核心无法执行,使开发者不能用.net webbrowser模拟操作。
做到以上四点,爬虫已经相当辛苦且效率差,加上不可避免要用server后端跑爬虫,你就
可以从IP及agent下手逼迫他不断pppoe。
做完这些后,你只要专心把平台做到第一,再有老二要捞你资料抢生意,也不用管他了。
电商吃得饱的,只有第一。