有几个问题想问问,本身没程式基础,参考一些文章使用下面的指令
import urllib2
from bs4 import BeautifulSoup
url = 'http://zh.divine-gate.wikia.com/wiki/1509'
request = urllib2.Request(url)
request.add_header('Accept-Encoding', 'utf-8')
response = urllib2.urlopen(request)
soup = BeautifulSoup(response)
print soup.text
问题1.最后显示出来,仍然有许多不需要的部分,用Infolite取得表格文字在
td跟th部分尝试改成print soup.select('td'),但却变成似乎有乱码的情况
问题2.现在是使用notebooks操作,如果要输入成挡案成纯文本该如何作?改成py档
执行完就直接不见了
问题3.如果要大量撷取,要如何修改呢?
如:http://zh.divine-gate.wikia.com/wiki/xxxx XXXX=1~1500