[问题] 网页资料撷取问题

楼主: ajsaak (光)   2015-12-24 20:16:07
有几个问题想问问,本身没程式基础,参考一些文章使用下面的指令
import urllib2
from bs4 import BeautifulSoup
url = 'http://zh.divine-gate.wikia.com/wiki/1509'
request = urllib2.Request(url)
request.add_header('Accept-Encoding', 'utf-8')
response = urllib2.urlopen(request)
soup = BeautifulSoup(response)
print soup.text
问题1.最后显示出来,仍然有许多不需要的部分,用Infolite取得表格文字在
td跟th部分尝试改成print soup.select('td'),但却变成似乎有乱码的情况
问题2.现在是使用notebooks操作,如果要输入成挡案成纯文本该如何作?改成py档
执行完就直接不见了
问题3.如果要大量撷取,要如何修改呢?
如:http://zh.divine-gate.wikia.com/wiki/xxxx XXXX=1~1500
作者: alair99 (I think home)   2015-12-24 23:41:00
用循环来变更url参数http://www.largitdata.com/course_list/1 这有爬虫教学很实用
楼主: ajsaak (光)   2015-12-25 13:07:00
这网站我有看,也是跟着学BS4筛选 但不筛选不会有乱码加上筛选条件 却有乱码 但输入已加上UTF8了?
作者: alair99 (I think home)   2015-12-25 15:31:00
我用python3抓起来像这样 http://imgur.com/zdqYM24你说的乱码是td标签那些吗 XD
楼主: ajsaak (光)   2015-12-25 19:24:00
不是喔 是如果筛选Td下的部分 会变成\u6c42\u3081\u308b\这样
作者: s860134 (s860134)   2015-12-25 20:31:00
从他 print 的方式就知道是2.X 了 又是unicode的问题你可以尝试 a = u"\u6c42\u3081\u308b";print(a)
楼主: ajsaak (光)   2015-12-26 13:10:00
这样还是不行 试了几个方法后 改用3.5就OK了

Links booklink

Contact Us: admin [ a t ] ucptt.com