Re: [心得] 取得联合报历史头版

楼主: DemonDeath (Beethoven Virus)   2015-01-05 21:09:43
我给个有点偷懒的做法, 但并没有要比对图片XD
只是用 async 的方式去快速存取每个link, 这边默认程式执行下有 pic folder
然后 begin_day 跟 end_day 自己改XD (懒得写读外部参数了)
import os
import grequests
from datetime import datetime
from datetime import timedelta
def main():
folder = "pic/"
date_format = "%Y%m%d"
url = r"https://event.franklin.com.tw/C2014_11_TGF/showimg.aspx?date="
begin_day = datetime.strptime('19510915', date_format)
end_day = datetime.strptime('19510920', date_format)
day_count = (end_day - begin_day).days + 1
urls = ['{0}{1}'.format(url, day.strftime(date_format)) \
for day in (begin_day + timedelta(n) for n in xrange(day_count))]
rs = (grequests.get(u, stream=True) for u in urls)
for pic in grequests.map(rs):
if pic.status_code == 200:
date = pic.url.split('date=')[1]
if not os.path.isfile('{0}/{1}.png'.format(folder, date)):
print "{0}.png will be stored in {1}".format(date, folder)
with open('{0}/{1}.png'.format(folder, date), 'wb') as f:
for chunk in pic.iter_content():
f.write(chunk)
else:
print "{0}.png already stored in {1}".format(date, folder)
pic.close()
if __name__ == '__main__':
main()
※ 引述《taxi550 (小姐到哪)》之铭言:
: 联合报有个网站可以看到各年的头版,分享抓取的程式,有人可改进吗?
: #!/usr/bin/env python
: #!coding=utf-8
: import os
: import time
: import math
: import pycurl
: import operator
: from PIL import Image
: from StringIO import StringIO
: def main():
: picUrl = r"https://event.franklin.com.tw/C2014_11_TGF/showimg.aspx?date="
: path = os.path.normpath(os.path.dirname(__file__)+"/pic")
: #读取"本日无出报"图片
: try:
: noPic = Image.open(os.path.join(os.path.dirname(__file__), "no.jpg"))
: except:
: #读取"本日无出报"图片失败
: sw = None
: else:
: sw = True
: noH = noPic.histogram()
: if os.path.isdir(path):
: pass
: else:
: os.makedirs(path)
: print "目录 "+path+" 不存在,产生新目录."
: print "图片将储存于 "+path+" 目录."
: for y in xrange(1951, 2016):
: y = str(y)
: for m in xrange(1, 13):
: if m < 10:
: #1951年9月16日前资料不存在所以跳过,写法不是很好,将就一下
: if m < 9 and y == "1951":
: continue
: m = "0"+str(m)
: else:
: m = str(m)
: print "开始撷取 "+y+"年"+m+"月."
: for d in xrange(1, 32):
: if d < 10:
: date = y+m+"0"+str(d)
: else:
: date = y+m+str(d)
: savefile = os.path.normpath(path+"/"+date+".jpg")
: #print savefile
: #图片已存在或已下载就略过
: if os.path.isfile(savefile):
: print savefile+" 已存在."
: continue
: else:
: #尝试取得图片
: try:
: buffer = StringIO()
: c = pycurl.Curl()
: c.setopt(c.URL, picUrl+date)
: c.setopt(c.WRITEFUNCTION, buffer.write)
: c.perform()
: c.close()
: except:
: #取得图片失败
: continue
: else:
: try:
: buffer.seek(0)
: im = Image.open(buffer)
: if sw:
: imH = im.histogram()
: #比对图片,数字越大说明相差的越大,相似度100%接近860
: rms = math.sqrt(reduce(operator.add,
: list(map(lambda a,b: (a-b)**2, noH, imH)))/len(noH))
: #print rms
: if rms > 870:
: #图片不相同
: im.save(savefile, 'JPEG')
: else:
: #图片比对相同就跳过
: continue
: else:
: im.save(savefile, 'JPEG')
: except:
: continue
: else:
: #图片储存成功
: print time.strftime("%Y-%m-%d %H:%M:%S",
: time.localtime())+" 储存 "+savefile+" 成功."
: if __name__ == '__main__':
: main()

Links booklink

Contact Us: admin [ a t ] ucptt.com