--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.44.181.94
※ 文章网址: https://www.ptt.cc/bbs/Python/M.1446441740.A.731.html
→ walelile: 你的需求不用全部自己写,有爬虫套件scrapy 11/02 14:42
→ tonglie: 谢谢楼上再度指引!! 我真的太无知了什么都不懂 11/02 15:15
→ tonglie: 我再研究研究该套件内容QQQQQQ 感谢感谢 11/02 15:15
→ Neisseria: 参考这本 http://oreil.ly/1WqxJlP,基础还是要先学 11/02 15:40
→ tonglie: 谢谢N大:D! 11/02 19:34
→ MOONY135: 跟你想的不太依样 不是存取数据库 只是抓资料下来 11/02 20:21
→ MOONY135: 另外就是 拍卖的东西 他设定的关键字很不一定 11/02 20:22
→ MOONY135: 所以跟你想的东西到最后会有误差是一定的 11/02 20:22
→ bigpigbigpig: 我是用 lxml 模组啦,还蛮方便的,Google 一下吧 :) 11/02 21:27
→ tonglie: 喔喔 原来是这样 我再研究研究 有误差没关系 因为一页页 11/02 22:56
→ tonglie: 点真的好漫长囧> 才想说要怎么提高效率 11/02 22:56
→ tonglie: 谢谢b大M大的建议! 11/02 22:58
推 gagalala: coursera有另一堂programming for everyone(Python)系列 11/03 02:25
→ gagalala: 教的非常好 11/03 02:25
→ MOONY135: 举例来讲 你去露天查"洛克人"就好了 11/03 10:19
→ MOONY135: 然后注意一样商品 在去看同样商品 其他卖家的描述 11/03 10:20
→ MOONY135: 你就会知道困难点在哪边了...最终还是要回归到人来辨识 11/03 10:20
→ MOONY135: 如果你是要固定同一个卖家 那就当我没说 11/03 10:21
→ tonglie: 谢谢g大建议 来去看看该堂课 我这两天也有看到python有门 11/03 11:00
→ tonglie: 新课程 看起来似乎比较贴近我想做的事 11/03 11:00
→ tonglie: 谢谢m大 其实我当初就是想说先下载下来再人工辨识每一样 11/03 11:01
→ tonglie: 商品 因为日本雅虎的商品量是台湾的好几百倍了 鼠标都点 11/03 11:01
→ tonglie: 到要起火了XD 我会再试试看的 谢谢QQ (虽然那步可能还很 11/03 11:02
→ tonglie: 远 我现在连爬都不会爬 现在还很难想像障碍赛的未来 11/03 11:02
推 Thisisnotptt: 可不可以简易叙述一下需求呢?说不定有适合度很高的 11/03 16:47
→ Thisisnotptt: 套件可以用 11/03 16:47
谢谢T大
因为目前想从日本购买某些品牌的单品,所以想说可以设定关键字之后
ex: エルメス スカーフ 下去单品有4,391件
虽然旁边有一些检索工具可以让范围缩小
但还是需要一个页面一个页面点开 看该物品的物品状况
比如其中一个
http://page8.auctions.yahoo.co.jp/jp/auction/h212480074
商品说明有关键字 未使用
那可能我就会优先看这项物品的照片 评价 等资料
然后想精简这部分的动作(一样样点真的很累<囧>)
我想增加效率这个应该是可以透过python完成的吧@@??
=============43======================
如果你只是想这样的话 其实不算困难
你只要把有"关键字"的网页存起来就好了
第一步是先搜寻关键字
然后第二步是 去把商品描述的部分 比对一下里面有没有符合你关键字
如果有 那就把那个网页存起来(可以存放到excel这样)
所以你的excel大概会长成
卖家 卖家评价 标题 网址
aaa 60 iphone6s 全新 http://xxxxx.yahoo
※ 编辑: tonglie (42.70.124.202), 11/03/2015 17:13:57
→ Neisseria: http://developer.yahoo.co.jp/webapi/auctions/ 11/03 20:59
→ Neisseria: 用 API 应该会比自已爬网页再 parse 来得快 11/03 20:59
→ Neisseria: 不过,自已爬网页比较灵活就是了 11/03 21:00
→ mirage7714: 推programming for everyone的python课程 基础教很多 11/03 22:26