[问题] 爬虫出网站中所有的内文

楼主: tosakashiron (翰)   2017-09-01 22:42:37
大家好
小弟目前爬虫初学者
在目前的专案中需要用到爬虫
但是是不知道会去爬哪个网站
应该说目标是丢入任意网址都要可以丢出该网站的内文
有点像是google搜寻引擎中
搜寻完的网站下方会出现预览内文一样
不知道有没有办法可以做到
或是github上面有神人已经写出相关的API可以使用
因为不知道用什么关键字搜寻比较好
所以找到的大部分都是只能爬出特定网站
或是只能爬出网址中的网址
跟我所想要的不太一样
拜托各位神人大大了
谢谢!!!
作者: ptt0720 (湿湿)   2017-09-01 23:18:00
beautifulsoup 你有点懒惰哦
作者: vi000246 (Vi)   2017-09-02 00:11:00
首先你要定义内文
作者: karta0910489 (coyote)   2017-09-02 03:20:00
请定义内文
楼主: tosakashiron (翰)   2017-09-02 14:11:00
谢谢楼上大大们的回应我想要的内文就是网站的所有文字内容只有会给使用者看得到的内容小弟我会使用beautifulsoup但是一定要定义tag才能find并解析有没有办法是不需要定义tag就可以爬出来因为每一个网址的tag都不一样不知道有没有办法先在此谢谢大家!!
作者: blc (Anemos)   2017-09-02 15:47:00
urllib.open(url).read()
作者: coeric ( )   2017-09-03 11:28:00
网页页面是人写的,没人规定tag要怎么用 页面要怎么排简单一句话:case by case
作者: zerof (猫橘毛发呆雕像)   2017-09-03 14:33:00
search engine crawler
作者: yulin0619 (来自中国北方的一只鹅)   2017-09-04 23:38:00
上网查都是英文的,看不懂可以买中文书啊,又不是说没书可买

Links booklink

Contact Us: admin [ a t ] ucptt.com