[问题] aspx爬虫翻页问题 jimmy5104 PTT批踢踢实业坊

[问题] aspx爬虫翻页问题

楼主: jimmy5104 (tsoo182791) 2018-12-13 11:00:42

https://www.mittw.org.tw/products/manufacturer.aspx
想要将这个网页的公司名称爬虫下来，但发现有翻页问题
已经在stackoverflow等等网站找寻资讯，还是无法解决，
想请问各位py神有没有方法可以解决这个问题。
以下是程式码
from bs4 import BeautifulSoup
import requests
url = 'https://www.mittw.org.tw/products/manufacturer.aspx'
url_get = requests.get(url)
soup = BeautifulSoup(url_get.content, 'lxml')
col = soup.find_all('div',{'class': "name"})
for ix in col:
print(ix.get_text())

作者: CodingMan (程式侠) 2018-12-13 11:17:00

Selenium

作者: cody880528 (Summon) 2018-12-13 12:18:00

大概像这样吧 https://pastebin.com/mpB8RNirASP都比较麻烦一点

楼主: jimmy5104 (tsoo182791) 2018-12-13 13:13:00

谢谢cody880528你的code可以顺利爬下来但是我有的看不懂其中的含意可以帮我解释一下吗？另一个问题就是假如说main()爬取下来后怎么将他也顺利写入csv挡

作者: jason860421 (jason) 2018-12-13 15:30:00

开开发者工具看网页做了什么就知道了

楼主: jimmy5104 (tsoo182791) 2018-12-13 16:53:00

aspx背后程式码有点看不懂cody打在def里面有几个网页原始档的code不知道为什么是这样打我比较想知道原因为什么是挑选那几个下去原始码后就可以翻页爬虫

继续阅读

[问题] Youbike资料视觉化请教aaron880221 [问题] 请教如何不用sudo执行pip3silverarrow [问题] NumPy 反矩阵计算soupbone [问题] pandas中 .agg()与.apply()的差别sssh [问题] 有办法脱离父程序吗?phoenixcx [问题] class.__new__ 使用疑问papple23g [问题] def 内呼叫其他py档defleoone [问题] 不影响循环效率情况下倒数XperiaZ6C [问题] 新手问ptt政黑版爬虫askdrlin [问题] print画面资料写出一个档newdas