[问题] 网页资料撷取问题 ajsaak PTT批踢踢实业坊

[问题] 网页资料撷取问题

楼主: ajsaak (光) 2015-12-24 20:16:07

有几个问题想问问，本身没程式基础，参考一些文章使用下面的指令
import urllib2
from bs4 import BeautifulSoup
url = 'http://zh.divine-gate.wikia.com/wiki/1509'
request = urllib2.Request(url)
request.add_header('Accept-Encoding', 'utf-8')
response = urllib2.urlopen(request)
soup = BeautifulSoup(response)
print soup.text
问题1.最后显示出来，仍然有许多不需要的部分，用Infolite取得表格文字在
td跟th部分尝试改成print soup.select('td')，但却变成似乎有乱码的情况
问题2.现在是使用notebooks操作，如果要输入成挡案成纯文本该如何作?改成py档
执行完就直接不见了
问题3.如果要大量撷取，要如何修改呢?
如：http://zh.divine-gate.wikia.com/wiki/xxxx XXXX=1~1500

作者: alair99 (I think home) 2015-12-24 23:41:00

用循环来变更url参数http://www.largitdata.com/course_list/1 这有爬虫教学很实用

楼主: ajsaak (光) 2015-12-25 13:07:00

这网站我有看，也是跟着学BS4筛选但不筛选不会有乱码加上筛选条件却有乱码但输入已加上UTF8了?

作者: alair99 (I think home) 2015-12-25 15:31:00

我用python3抓起来像这样 " target="_blank" rel="nofollow">

你说的乱码是td标签那些吗 XD

楼主: ajsaak (光) 2015-12-25 19:24:00

不是喔是如果筛选Td下的部分会变成\u6c42\u3081\u308b\这样

作者: s860134 (s860134) 2015-12-25 20:31:00

从他 print 的方式就知道是2.X 了又是unicode的问题你可以尝试 a = u"\u6c42\u3081\u308b";print(a)

楼主: ajsaak (光) 2015-12-26 13:10:00

这样还是不行试了几个方法后改用3.5就OK了

继续阅读

[问题] 二维 list 排序obelisk0114 Re: [问题] 如何强制使用 with statementuranusjr [问题] django移植到别的主机的问题alair99 [问题] 安装goslate失败allan80625 [问题] 如何强制使用 with statementResolaQQ Re: [问题] 正规表达式可以用中文字吗?uranusjr [问题] mail hinet 寄信被阻挡aaa7513231 [问题] 正规表达式可以用中文字吗?aster30 Re: [问题] 传递参数问题dritchie [问题] 传递参数问题IAMPF