[请益] 爬虫是容易触法的行为吗？ bajifa PTT批踢踢实业坊

[请益] 爬虫是容易触法的行为吗？

楼主: bajifa (éŠ€æ²³) 2018-06-16 23:24:53

不好意思打扰大家
最近在学习爬虫
小弟想请教
假设做书籍资讯相关的爬虫
而资料来源打算用网络书店的资料(内容包含书名价格出版社......等公开资讯)
在遵守Robot.txt的情况下,会有任何可能会触法吗？会不会被认定同一秒发太多请求对
他们服务器是攻击的行为？
会问这个原因是因为之前爬一些国外网站有被Ban ip,虽然可以用代理解决,但会不会这隐
含被告的风险呢？
网络上找了很多资料,但没有一个详细的解答,有人说会,也有人说不会,也有真的起诉成功
和失败的案例,但资料来源都是在中国,不知道在台湾能不能这样做
(btw 假设一秒请求16次的情况下)
先谢谢大家了最近被这个问题困扰很久

作者: ripple0129 (perry tsai) 2018-06-16 23:48:00

《刑法》第360条规定：“无故以‘电脑程式’或其他电磁方式干扰他人电脑或其相关设备，致生损害于公众或他人者，处三年以下有期徒刑、拘役或科或并科十万元以下罚金。”。有办法举证你损害公众或他人才有办法告吧。也就是你没把他搞到服务失常应该是告不成。

作者: vi000246 (Vi) 2018-06-16 23:53:00

既然会ban IP 就代表别人不想你爬资料了

作者: readonly (唯读) 2018-06-16 23:54:00

一秒16次还好…你要考虑的不是这方向…找暂时性重制

作者: THEWORLDS (天下) 2018-06-17 00:49:00

走到法律这一个第部不太可能会发生你放心除非你是用学网去爬某些网站导致人家当机那真的要赔钱没错

作者: kappakappa 2018-06-17 01:00:00

假如1秒请求16次网站就会挂点，网站要告的应该是开发那网站的工程师吧...

作者: jimmy689 (å‰ç±³è›†è›†) 2018-06-17 01:01:00

前年美国有判例，有厂商爬linked被吉，法院判无罪，理由是linked数据以公开方式供大家取用，后来linked就改成只有登入后才看得到完整数据了。

作者: kappakappa 2018-06-17 01:02:00

爬虫比较多的问题是copyright issue吧

作者: ChungLi5566 (中坜56哥) 2018-06-17 01:14:00

大公司的对外网站防火墙都有ddos防护设备然后你这个可能普通防火墙就自动ban ip了

作者: king4647 (发呆) 2018-06-17 01:24:00

看你爬的程度之前听说有人爬挂新闻网站结果人家找上门最后和解把资料买下来

作者: Rocker5566 (摇滚56) 2018-06-17 10:00:00

那那些比价网站是如何做的呢？

作者: TitanEric (泰坦) 2018-06-17 10:21:00

我五分钟固定爬一次就被ban了QQ

作者: ap954212 (death is like the wings) 2018-06-17 11:06:00

模拟成浏览器也会被ban?

作者: alog (A肉哥) 2018-06-17 11:09:00

要有刑责或民事侵权都要看状况认定包括举证内容有没有到位，但基本上一个原则是人家设下了一个门槛比如说验证码或是特定的验证防护方式就不要太白目硬要去解，包括不要把别人的服务搞挂向楼上的新闻网站搞挂有可能得赔上一笔费用，虽然说一篇新闻稿授权转载的授权费用没多少但是量多起来还是挺客观的另外有些内容跟资讯是属于该公司特有，著作权还是要顾一下，免得服务上线，该公司的法务找上你和解都是100～200k起跳(律师费+实际侵权程度跟奇摩子)不过另外说的是爬虫其实也没说好爬，因为通常正常来说内容类的平台网站会有类似 limit request 的 module 挂在服务器设定上，有些是因为上cdn省waf或是上好cache不怕你爬，你只是其中的使用者而已，没有持续一直同步 mis/it 根本不会处理你只是后续就是刚讲的，资料怎么来的，拿了不该拿了会不会有问题很难说，包括你图片内刚好有别人的商标又另一件事情了最后总结是做资料研究 -> 低调、不要碍到人为主做服务平台、或转售资讯 -> 找律师事务所付费咨询再补充下，这方面其实不只是爬虫而已，像你如果平台给员工维护，然后你没有尽好责任监督上架内容有问题，雇主也是有连带责任的所以说你会顾虑到爬虫的法律问题我觉得是非常好的但因为网友不可能知道你究竟真正的目的要用在哪里若你有已知的风险但无法评估究竟影响到程度或责任有多大你就必须要找相关专业的人帮你看例如你的是法律问题若有必要就是找专攻或是相关问题有实务经验的律师事务所去询问（但这是经验跟专业正常情况不是免费帮你的，所以会有一定的收费）

楼主: bajifa (éŠ€æ²³) 2018-06-17 12:01:00

非常谢谢大家的意见,这样我以后爬虫到时候会更谨慎并且注意是否遵守他们网站的规则还有网络礼仪

作者: crossdunk (推嘘自如) 2018-06-17 14:37:00

alog你要不要回一篇

作者: wildli0422 (wild) 2018-06-17 18:27:00

楼主拜托不要删文阿

作者: davidtnfsh 2018-06-17 20:26:00

alog大大专业

作者: aszx4510 (wind) 2018-06-17 20:59:00

alog大大自己回应一篇吧若原PO自删这些心血就没了

作者: eva19452002 (^^) 2018-06-17 23:16:00

google搜索引擎也是爬虫而来，会有alog提到的问题吗?

作者: vi000246 (Vi) 2018-06-17 23:33:00

google的引擎有遵守robots.txt啊只爬公开资料

作者: y3k (激流を制するは静水) 2018-06-17 23:38:00

换句话说只要遵守robots.txt(X

作者: chocopie (好吃的巧克力派 :)) 2018-06-17 23:42:00

推

作者: VIGUTA (黄道第十四宫-鲁蛇座) 2018-06-18 07:34:00

4缩 ptt给人爬爽的是不是该吉一波当作一轮募资啦？

作者: fantasywater (prepare myself) 2018-06-18 12:17:00

结论其实就是违法，只是你怎么做到人家不会告你而已

作者: alihue (wanda wanda) 2018-06-18 12:22:00

比价都结合导购返利，你告了营收反而会变低…

作者: leicheong (睡魔) 2018-06-20 10:00:00

记得也有违反网站的TOS被民事提供的样子. 他们也不是要索偿, 只是要求法院颁令在相关资料移除前关站而已提告

作者: fbifxxkma (FBI帅哥恐吓騜) 2018-06-20 15:06:00

很久以前台北市政府怎么告某公共汽车app作者的？有点忘了还把人家搞到下架

继续阅读

[请益] 关于clean code书籍选择geroge0820 请帮忙覆议取消餐饮业两头班制度alex78 [征才] 台大药学院诚征研究助理及博士后研究员tt1525h Re: [心得] 如何经营 Side Project | Github 摘星星changyuheng [心得] 分享自己的 python YouTube 频道TWTRubiks [征才] 征Embedded system test/support engineer(70K~90K/4Y)SCYPP [心得] 如何经营 Side Project | Github 摘星星kuanhsuh [征才] Botrista Robotics征韧体工程师薪60K+aron123 [征才]新创团队征Web Backend程式开发创业伙伴darthv [请益] 玉山银行VS元大证券Offer选择howard1991