Re: [问题] 超新(文)手(盲)如何建立知识架构

楼主: MOONY135 (谈无欲)   2015-11-04 10:48:50
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.44.181.94
※ 文章网址: https://www.ptt.cc/bbs/Python/M.1446441740.A.731.html
→ walelile: 你的需求不用全部自己写,有爬虫套件scrapy 11/02 14:42
→ tonglie: 谢谢楼上再度指引!! 我真的太无知了什么都不懂 11/02 15:15
→ tonglie: 我再研究研究该套件内容QQQQQQ 感谢感谢 11/02 15:15
→ Neisseria: 参考这本 http://oreil.ly/1WqxJlP,基础还是要先学 11/02 15:40
→ tonglie: 谢谢N大:D! 11/02 19:34
→ MOONY135: 跟你想的不太依样 不是存取数据库 只是抓资料下来 11/02 20:21
→ MOONY135: 另外就是 拍卖的东西 他设定的关键字很不一定 11/02 20:22
→ MOONY135: 所以跟你想的东西到最后会有误差是一定的 11/02 20:22
→ bigpigbigpig: 我是用 lxml 模组啦,还蛮方便的,Google 一下吧 :) 11/02 21:27
→ tonglie: 喔喔 原来是这样 我再研究研究 有误差没关系 因为一页页 11/02 22:56
→ tonglie: 点真的好漫长囧> 才想说要怎么提高效率 11/02 22:56
→ tonglie: 谢谢b大M大的建议! 11/02 22:58
推 gagalala: coursera有另一堂programming for everyone(Python)系列 11/03 02:25
→ gagalala: 教的非常好 11/03 02:25
→ MOONY135: 举例来讲 你去露天查"洛克人"就好了 11/03 10:19
→ MOONY135: 然后注意一样商品 在去看同样商品 其他卖家的描述 11/03 10:20
→ MOONY135: 你就会知道困难点在哪边了...最终还是要回归到人来辨识 11/03 10:20
→ MOONY135: 如果你是要固定同一个卖家 那就当我没说 11/03 10:21
→ tonglie: 谢谢g大建议 来去看看该堂课 我这两天也有看到python有门 11/03 11:00
→ tonglie: 新课程 看起来似乎比较贴近我想做的事 11/03 11:00
→ tonglie: 谢谢m大 其实我当初就是想说先下载下来再人工辨识每一样 11/03 11:01
→ tonglie: 商品 因为日本雅虎的商品量是台湾的好几百倍了 鼠标都点 11/03 11:01
→ tonglie: 到要起火了XD 我会再试试看的 谢谢QQ (虽然那步可能还很 11/03 11:02
→ tonglie: 远 我现在连爬都不会爬 现在还很难想像障碍赛的未来 11/03 11:02
推 Thisisnotptt: 可不可以简易叙述一下需求呢?说不定有适合度很高的 11/03 16:47
→ Thisisnotptt: 套件可以用 11/03 16:47
谢谢T大
因为目前想从日本购买某些品牌的单品,所以想说可以设定关键字之后
ex: エルメス スカーフ 下去单品有4,391件
虽然旁边有一些检索工具可以让范围缩小
但还是需要一个页面一个页面点开 看该物品的物品状况
比如其中一个
http://page8.auctions.yahoo.co.jp/jp/auction/h212480074
商品说明有关键字 未使用
那可能我就会优先看这项物品的照片 评价 等资料
然后想精简这部分的动作(一样样点真的很累<囧>)
我想增加效率这个应该是可以透过python完成的吧@@??
=============43======================
如果你只是想这样的话 其实不算困难
你只要把有"关键字"的网页存起来就好了
第一步是先搜寻关键字
然后第二步是 去把商品描述的部分 比对一下里面有没有符合你关键字
如果有 那就把那个网页存起来(可以存放到excel这样)
所以你的excel大概会长成
卖家 卖家评价 标题 网址
aaa 60 iphone6s 全新 http://xxxxx.yahoo
※ 编辑: tonglie (42.70.124.202), 11/03/2015 17:13:57
→ Neisseria: http://developer.yahoo.co.jp/webapi/auctions/ 11/03 20:59
→ Neisseria: 用 API 应该会比自已爬网页再 parse 来得快 11/03 20:59
→ Neisseria: 不过,自已爬网页比较灵活就是了 11/03 21:00
→ mirage7714: 推programming for everyone的python课程 基础教很多 11/03 22:26
作者: walelile (wakaka)   2014-11-02 14:42:00
你的需求不用全部自己写,有爬虫套件scrapy
作者: tonglie (世界真奇妙)   2014-11-02 15:15:00
谢谢楼上再度指引!! 我真的太无知了什么都不懂我再研究研究该套件内容QQQQQQ 感谢感谢
作者: Neisseria (Neisseria)   2014-11-02 15:40:00
参考这本 http://oreil.ly/1WqxJlP,基础还是要先学
作者: tonglie (世界真奇妙)   2014-11-02 19:34:00
谢谢N大:D!
楼主: MOONY135 (谈无欲)   2014-11-02 20:21:00
跟你想的不太依样 不是存取数据库 只是抓资料下来另外就是 拍卖的东西 他设定的关键字很不一定所以跟你想的东西到最后会有误差是一定的
作者: bigpigbigpig (To littlepig with love)   2014-11-02 21:27:00
我是用 lxml 模组啦,还蛮方便的,Google 一下吧 :)
作者: tonglie (世界真奇妙)   2014-11-02 22:56:00
喔喔 原来是这样 我再研究研究 有误差没关系 因为一页页点真的好漫长囧> 才想说要怎么提高效率谢谢b大M大的建议!
作者: gagalala (嘎啦)   2014-11-03 02:25:00
coursera有另一堂programming for everyone(Python)系列教的非常好
楼主: MOONY135 (谈无欲)   2014-11-03 10:19:00
举例来讲 你去露天查"洛克人"就好了然后注意一样商品 在去看同样商品 其他卖家的描述你就会知道困难点在哪边了...最终还是要回归到人来辨识如果你是要固定同一个卖家 那就当我没说
作者: tonglie (世界真奇妙)   2014-11-03 11:00:00
谢谢g大建议 来去看看该堂课 我这两天也有看到python有门新课程 看起来似乎比较贴近我想做的事谢谢m大 其实我当初就是想说先下载下来再人工辨识每一样商品 因为日本雅虎的商品量是台湾的好几百倍了 鼠标都点到要起火了XD 我会再试试看的 谢谢QQ (虽然那步可能还很远 我现在连爬都不会爬 现在还很难想像障碍赛的未来
作者: Thisisnotptt (这不是PTT)   2014-11-03 16:47:00
可不可以简易叙述一下需求呢?说不定有适合度很高的套件可以用
作者: Neisseria (Neisseria)   2014-11-03 20:59:00
http://developer.yahoo.co.jp/webapi/auctions/用 API 应该会比自已爬网页再 parse 来得快不过,自已爬网页比较灵活就是了
作者: mirage7714 (C'est mon soeur.)   2014-11-03 22:26:00
推programming for everyone的python课程 基础教很多
作者: tonglie (世界真奇妙)   2015-11-04 11:25:00
谢谢 我再研究研究 QQ 人间处处有温情
楼主: MOONY135 (谈无欲)   2015-11-04 13:53:00
我之前本来想做自动化的 实际跑了才知道不行

Links booklink

Contact Us: admin [ a t ] ucptt.com