[问题] 爬虫资料格式及处理 unhumanWu PTT批踢踢实业坊

[问题] 爬虫资料格式及处理

楼主: unhumanWu (阿文) 2017-10-25 22:12:28

大家好，初学爬虫
透过以下程式抓到文字资料

想问一下这是哪种资料类型阿？
有像html之于BeautifulSoup的library可以处理吗？
感恩！
import requests
user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5)'
headers = {'User-Agent': user_agent,
'Referer':'http://www.family.com.tw/marketing/inquiry.aspx'}
response = requests.get("http://api.map.com.tw/net/familyS"
"hop.aspx?searchType=ShopList&type="
"&city=%E5%9F%BA%E9%9A%86%E5%B8%82"
"&area=%E4%BB%81%E6%84%9B%E5%8D%80&"
"road=&fun=showStoreList&key=6F30E8"
"BF706D653965BDE302661D1241F8BE9EBC"
, headers=headers)
response.text

作者: stucode 2017-10-25 22:23:00

看起来是 JSON，Python 有内建函数库。

作者: ssdoz2sk (眷恋着提拉米苏的风采~) 2017-10-25 22:23:00

你把前面的 showStoreList( 去掉，还有最后的 ) 去掉，就可以用 json.loads 读取 JSON

作者: ckc1ark (伪物) 2017-10-25 22:27:00

JSONP 用来绕过same origin policy的

作者: vi000246 (Vi) 2017-10-26 00:39:00

你网址里面有一串key参数这应该是csrf token吧get的时候要记得更新这个key还有个fun参数应该是用来决定回传的资料格式你可以研究一下怎么让他直接传回json

作者: rexyeah (ccccccc) 2017-10-26 08:41:00

eval(response.text.strip()) probably get a dict楼上说的没错要把showStoreList去掉才eval得出东西

作者: TitanEric (泰坦) 2017-10-26 15:13:00

JSON

继续阅读

[讨论] DataCamp 征求共用会员dogi2007 [问题]已下载beautifulsoup4，但无法在idle加载jamesxxx1997 [问题] pack中的格式能代入变量吗？starlin2 [问题] 新手发问 mac下使用matplotlibroony Re: [问题] 超新手下载anaconda错误yuehyueh24 [问题] scipy install 问题ss900405tw Re: [问题] 超新手问题, print不了直排的stringIMPOSSIBLEr [问题] 想请问有没有辨识颜色的api可用awdslijk [问题] 自动按下Entere12518166339 [问题] 超新手问题, print不了直排的stringtiger66