[问题] 爬虫问题

楼主: xm3fu0 (吕喝喝)   2018-09-29 00:27:09
状况是这样的
有一个csv里面有n个网址
这几个网址的格式类似 我目标都是要求出其中的table
那应该要如何写呢?
我自己写的程式码如下
import requests
from bs4 import BeautifulSoup
f = open(r"C:\python\scripts\xxx.csv","r")
lines=f.readlines()
lens=len(lines)
list = []
for index in range(lens):
temp = lines[index]
res = requests.get(temp)
soup = BeautifulSoup(res.text)
list.append(soup.select('table')[0])
我试着把I+=1摆进循环
发现temp = lines[index]没办法执行完毕
注:xxx.csv档案的资料都是网址,只有一个column的资料
资料类型都是http:\\......
麻烦各路高手了(跪
作者: s860134 (s860134)   2018-09-29 03:11:00
for 循环改成 for url in lines 比较直接res = requests.get(url) 这行没问题,问题是后面保证毎一个 url 都是有效的? 毎而且都有一个 table ?没办法执行完毕你也要说一下错在哪
作者: sherees (ShaunTheSheep)   2018-09-29 07:06:00
try
楼主: xm3fu0 (吕喝喝)   2018-09-29 10:13:00
好! 感谢你们 我试试看等等把errorcode奉上最后方向他的网址后面会有跨行\n的字去干扰读取 改成xlrd就可以了 感谢各位
作者: s860134 (s860134)   2018-09-29 22:32:00
... 所以是多了个 '\n'?

Links booklink

Contact Us: admin [ a t ] ucptt.com