Re: 这段哪里错 oz5566 PTT批踢踢实业坊

Re: 这段哪里错

楼主: oz5566 (阿康) 2018-12-27 14:38:28

※ 引述《oz5566 (夏洛克。福尔摩斯)》之铭言：
: import requests
: from bs4 import BeautifulSoup
: url =
: 'http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9='
: res = requests.get(url)
: res.encoding = 'big5'
: soup = BeautifulSoup(res.text,'html.parser')
: articles = soup.select(tag_name)
: for n in range(1, 20):
: next_url =
: 'http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9='
: + str(n)
: url = next_url
: for art in articles:
: print(url)
: 东西会变成这样
: 重复输出
: http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9=2
: 20变才换数字
: 但把这段砍掉又正常了
: for art in articles:
: 这是为啥冲突?
我抓取第一页是这样
import requests
from bs4 import BeautifulSoup
url =
'http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9=1'
res = requests.get(url)
res.encoding = 'big5'
soup = BeautifulSoup(res.text,'html.parser')
tag_name = 'td a'
articles = soup.select(tag_name)
for art in articles:
print(art.text,art['href'])
输出的东西没问题
全部显示
/go/3796?time=14:35:45&q1=tolv&qctrl=2038999&q65=2038999&q65=2038999&q106=3796
日生堂企业股有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181109095521
医铠股份有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181109100011
厚都企业有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181119145645
明惠贸易股份有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181119150113
宇岦健康事业有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181119150955
然后我想说照着教学抓下一页
就爆炸了
所以我也不知道ART 是啥

作者: durantjosh (肚烂特‧乔许) 2018-12-27 14:42:00

你是要输出什么

作者: emptie ([ ]) 2018-12-27 14:42:00

你要把整段包在循环里面

楼主: oz5566 (阿康) 2018-12-27 14:42:00

我现在练习输出标题跟连结之后要输出内文

作者: durantjosh (肚烂特‧乔许) 2018-12-27 14:43:00

所以你是要输出下一页的标题和连结？

作者: surimodo (好吃棉花糖) 2018-12-27 14:44:00

所以是要输出下一页会出错?

作者: durantjosh (肚烂特‧乔许) 2018-12-27 14:44:00

这样你next_url（下一页的网址）也要送出request啊你原本的写法，articles一直都是第一页的东西

楼主: oz5566 (阿康) 2018-12-27 14:47:00

所以?岛八我听铺统QQ

作者: emptie ([ ]) 2018-12-27 14:47:00

把第一行的url 最后一个1 去掉，后面+str(n)然后把所有东西包在 for n in range(1,20)的循环里面

楼主: oz5566 (阿康) 2018-12-27 14:50:00

我44

继续阅读

Re: [母猪] 等等开泳装猫剑david7928 Re: 现在皇城可以让我调皮的空间TsushimaRiko [姆咪] LOL板回来了tLuesuGi [闲聊] 福岛leopika [母猪] 等等开泳装猫剑yulis 这段哪里错oz5566 哇靠竟然......CavendishJr 谢谢茄子yulis [姆咪] 働！百度网盘竟然......leegiway 名侦探果汁特别篇CavendishJr