[问题] json.loads的问题

楼主: niburger1001 (妮妮汉堡)   2017-08-27 02:47:35
我写了一个小程式去爬取证交所的资料,
一开始还蛮顺利的不过到2006/01/25之后程式就中断了。
爬了些文说是json数据太多之类的,小弟还是新手,到这边就卡关了,也不太明白为什么
一开始还可以顺顺的执行,之后却不行。
还请大大们帮忙指教,谢谢!
以下是我的程式码:
from bs4 import BeautifulSoup
import requests
import json
import csv
import time, datetime, os
#SINCE 2004/10/15 to this year
start_date = datetime.datetime( 2004, 10, 15)
end_date = datetime.datetime.now()
start_date = update() #update
totaldays = (end_date - start_date).days + 1
for day_list in range(totaldays):
date_str = (start_date + datetime.timedelta(days = day_list)).date()
year = date_str.year
month = date_str.month
day = date_str.day
#print(date_str.strftime("%Y%m%d"))
directory = 'D:/stock/Raw_data/TWSE_5MIN/'
filename = date_str.strftime("%Y%m%d")+'.csv'
makedirs() #create directory
function
json_data = get_webmsg( year, month, day) #put the data
into smt
if (json_data != False):
write_csv( directory, filename, json_data) #write csv
function
time.sleep(1)
else:
continue
def get_webmsg( year, month, day):
date = str(year) + "{0:0=2d}".format(month) + "{0:0=2d}".format(day)
url_twse =
'http://www.twse.com.tw/exchangeReport/MI_5MINS?response=json&date='+ date
res = requests.post( url_twse)
soup = BeautifulSoup( res.text, 'html.parser')
smt = json.loads( soup.text)
s1 = {'stat': '很抱歉,没有符合条件的资料!'}
if(smt != s1):
return smt
else:
return False
def write_csv( directory, filename, json_data):
writefile = directory + filename
outputFile = open( writefile,'w', newline='')
outputWriter = csv.writer( outputFile)
head = ''.join( json_data['title']).split()
a = [ head, ""]
outputWriter.writerow(a)
outputWriter.writerow( json_data['fields'])
for data in (json_data['data']):
outputWriter.writerow(data)
outputFile.close()
def makedirs():
directory = 'D:/stock/Raw_data/TWSE_5MIN'
if not os.path.isdir(directory):
os.makedirs(directory)
def update():
path = 'D:\stock\Raw_data\TWSE_5MIN'
files_list = os.listdir(path)
date_str = files_list[-1]
y = int(date_str[:4])
m = int(date_str[5:6])
d = int(date_str[6:8]) + 1
update_date = datetime.datetime( y, m, d)
return update_date
错误代码是:JSONDecodeError: Extra data: line 2 column 5 (char 5)
作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS)   2017-08-27 10:53:00
先看一下读进来的json格式
作者: coeric ( )   2017-08-28 08:13:00
看来 是原始资料的问题阿........如果推测没错的话 2006年1月26 发生恒春大地震股市暂停交易(两天) 没有资料是很正常的.........再者,你是用py3 是否跟decode encode有关?(我是用py2)因为我一直觉得 都跑到if(smt != s1):return smt没资料情况,并没有跳到else:return False你把soup.text丢进去smt内时,都已经变成unicodeunicode一直都不会等于utf-8 所以并不会跳到else去
作者: NoManInCar (NMIC)   2017-08-28 17:38:00
上次也有玩一阵子 似乎暂停交易日不会出现在网站上也捞不到吧?
楼主: niburger1001 (妮妮汉堡)   2017-08-29 02:30:00
最近较忙 谢谢大大们的建议 我会先看那几天资料到底跟非交易日的资料有没有差别 有下载成功的资料都有跳过非交易日那时候想法很单纯 非交易跟暂停交易都一样没有资料编码的问题我也会去了解 谢谢大大们给的方向

Links booklink

Contact Us: admin [ a t ] ucptt.com