[问题] 爬虫资料格式及处理

楼主: unhumanWu (阿文)   2017-10-25 22:12:28
大家好,初学爬虫
透过以下程式抓到文字资料
https://imgur.com/mGAOY9I
https://imgur.com/GwWX8f3
想问一下这是哪种资料类型阿?
有像html之于BeautifulSoup的library可以处理吗?
感恩!
import requests
user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5)'
headers = {'User-Agent': user_agent,
'Referer':'http://www.family.com.tw/marketing/inquiry.aspx'}
response = requests.get("http://api.map.com.tw/net/familyS"
"hop.aspx?searchType=ShopList&type="
"&city=%E5%9F%BA%E9%9A%86%E5%B8%82"
"&area=%E4%BB%81%E6%84%9B%E5%8D%80&"
"road=&fun=showStoreList&key=6F30E8"
"BF706D653965BDE302661D1241F8BE9EBC"
, headers=headers)
response.text
作者: stucode   2017-10-25 22:23:00
看起来是 JSON,Python 有内建函数库。
作者: ssdoz2sk (眷恋着提拉米苏的风采~)   2017-10-25 22:23:00
你把前面的 showStoreList( 去掉,还有最后的 ) 去掉,就可以用 json.loads 读取 JSON
作者: ckc1ark (伪物)   2017-10-25 22:27:00
JSONP 用来绕过same origin policy的
作者: vi000246 (Vi)   2017-10-26 00:39:00
你网址里面有一串key参数 这应该是csrf token吧get的时候要记得更新这个key还有个fun参数 应该是用来决定回传的资料格式你可以研究一下怎么让他直接传回json
作者: rexyeah (ccccccc)   2017-10-26 08:41:00
eval(response.text.strip()) probably get a dict楼上说的没错 要把showStoreList去掉才eval得出东西
作者: TitanEric (泰坦)   2017-10-26 15:13:00
JSON

Links booklink

Contact Us: admin [ a t ] ucptt.com