Re: 这段哪里错

楼主: oz5566 (阿康)   2018-12-27 14:38:28
※ 引述《oz5566 (夏洛克。福尔摩斯)》之铭言:
: import requests
: from bs4 import BeautifulSoup
: url =
: 'http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9='
: res = requests.get(url)
: res.encoding = 'big5'
: soup = BeautifulSoup(res.text,'html.parser')
: articles = soup.select(tag_name)
: for n in range(1, 20):
: next_url =
: 'http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9='
: + str(n)
: url = next_url
: for art in articles:
: print(url)
: 东西会变成这样
: 重复输出
: http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9=2
: 20变 才换数字
: 但把这段砍掉 又正常了
: for art in articles:
: 这是为啥 冲突?
我抓取第一页是这样
import requests
from bs4 import BeautifulSoup
url =
'http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9=1'
res = requests.get(url)
res.encoding = 'big5'
soup = BeautifulSoup(res.text,'html.parser')
tag_name = 'td a'
articles = soup.select(tag_name)
for art in articles:
print(art.text,art['href'])
输出的东西没问题
全部显示
/go/3796?time=14:35:45&q1=tolv&qctrl=2038999&q65=2038999&q65=2038999&q106=3796
日生堂企业股有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181109095521
医铠股份有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181109100011
厚都企业有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181119145645
明惠贸易股份有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181119150113
宇岦健康事业有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181119150955
然后我想说照着教学抓下一页
就爆炸了
所以我也不知道ART 是啥
作者: durantjosh (肚烂特‧乔许)   2018-12-27 14:42:00
你是要输出什么
作者: emptie ([ ])   2018-12-27 14:42:00
你要把整段包在循环里面
楼主: oz5566 (阿康)   2018-12-27 14:42:00
我现在练习输出标题跟连结 之后要输出内文
作者: durantjosh (肚烂特‧乔许)   2018-12-27 14:43:00
所以你是要输出下一页的标题和连结?
作者: surimodo (好吃棉花糖)   2018-12-27 14:44:00
所以是要输出下一页会出错?
作者: durantjosh (肚烂特‧乔许)   2018-12-27 14:44:00
这样你next_url(下一页的网址)也要送出request啊你原本的写法,articles一直都是第一页的东西
楼主: oz5566 (阿康)   2018-12-27 14:47:00
所以?岛八 我听铺统QQ
作者: emptie ([ ])   2018-12-27 14:47:00
把第一行的url 最后一个1 去掉,后面+str(n)然后把所有 东西 包在 for n in range(1,20)的循环里面
楼主: oz5566 (阿康)   2018-12-27 14:50:00
我44

Links booklink

Contact Us: admin [ a t ] ucptt.com