楼主:
yobook (@@)
2021-10-09 09:40:57花了很多P币,跟时间再研究google跟备份网站
备份网站不是用多线程爬虫技术吗?
但是好像发现了,没有这么简单
好像每个版,测试过,被备份的方式不同....
说简单,但也不简单
这类网站所依赖的技术,其实满简单的
但是PTT只要发文权限跟方式不改,永远都一定会被备份
发文的那个瞬间,因为很多地方不能改变,只能发文后再改
所以,第一次的文章标题,还有发文者一定会被纪录
本文可以修改,所以必须等第二次才能解决
想问一下,PTT备份网站,像是PTTWEB 所仰赖的技术.....
谢谢!
损失好多P币跟时间,血泪,才得到这种结论.....
人脑真的比不上电脑QQ
作者:
gasbomb (虚空雷神兽)
2021-10-09 10:03:00……有人看得懂这篇吗?
作者: yinxuanh (飘飘然) 2021-10-09 10:08:00
伸手文啊
作者:
loadingN (sarsaparilla)
2021-10-09 10:09:00为什么会损失p币
作者:
PttLite (PTT Lite)
2021-10-09 11:08:00看标题进来因为是DB backup或snapshot结果是爬虫...我快跟不上时代了..
作者:
qrtt1 (有些事,有时候。。。)
2021-10-09 11:55:00看不懂想要干麻
作者: yougigun 2021-10-09 12:02:00
我也跟不上你的脑
作者:
chocopie (好吃的巧克力派 :))
2021-10-09 12:50:00先定义你要备份的内容是什么。是原本的内容一模一样?还是只爬文章文字内容?
作者:
JimRoid (小绵绵)
2021-10-09 12:55:00看标题我以为你是要问快照之类的
作者:
utdsml (阿边肥)
2021-10-09 13:02:00原 po 应该是想问备份 PTT 里面所有发推文纪录的网站
作者: moom50302 (武林三羚鳄) 2021-10-09 13:05:00
ctrl+S…?
我觉得PTT备份文章的网站真的好厉害喔!全都可以记录
作者:
kyoe (缘份‧不再)
2021-10-09 13:47:00只要格式固定,都可以被解析
作者: roccqqck (ccqq) 2021-10-09 15:18:00
爬虫作业自己写欸 本来每个网站爬虫都不一样都要修改
作者:
Olwen (欧温)
2021-10-09 15:45:00明明是中文,我确听不懂
作者:
PttLite (PTT Lite)
2021-10-09 15:54:00要用眼看
看不懂的都没有成为PM的资质客户说的备份 要跟工程师说逆向工程才听得懂
作者:
wave1et (百分百殖利率)
2021-10-09 17:19:00ptt有个allpost版吧
作者:
PttLite (PTT Lite)
2021-10-09 18:12:00为什么要对自己的网站做逆向工程
作者:
RINPE (RIN)
2021-10-09 18:18:00没有什么是复制贴上解决不了的
2012做到现在发文发问还像完全不懂程式的外行着实厉害
作者:
bill0205 (善良的小孩没人爱)
2021-10-09 20:21:00对不起我还真的看不懂
作者:
OrzOGC (洞八达人.拖哨天王)
2021-10-09 20:22:00我看得懂,有人可以捡我去当PM吗?QQ
作者:
pilor (Formosa)
2021-10-09 20:54:00我看得懂中文看不懂这篇文
作者:
boy70263 (Johnny)
2021-10-09 21:34:00Ctrl+A+C+P
偷别人网站内容 然后做出相似的东西放出来 他想知道那些网站怎么办到的
作者:
wulouise (在线上!=在电脑前)
2021-10-09 23:41:00没讲解决要解决什么,一百遍都猜不透吧
作者:
BignoZe (BignoZe)
2021-10-09 23:54:00看得懂 还好我有看完新上的通灵王
作者: Kazimir (Kazimir) 2021-10-10 04:46:00
公开网站要怎么防止备份 你要他们删文不然写信去问看看R
作者:
qrtt1 (有些事,有时候。。。)
2021-10-10 08:31:00只有一开始就不存在的东西不会被备份
作者:
MarcoReus (Marco Reus)
2021-10-10 08:48:00反向思考 你可以发加密文
作者:
art1 (人,原来不是人)
2021-10-10 09:38:00去跟 ptt 站方要求禁止来自这些网站的爬虫应该说请求才对
公开网站可以防爬虫的话,那一开始你就发加密网站就好
作者: daddy29 (愿上帝与你同在) 2021-10-10 10:19:00
砍站
作者: aa06697 (todo se andarà) 2021-10-10 10:56:00
公开网站 网站也不是你拥有的话 你单纯发文没办法防吧
作者:
WJAider (Aider)
2021-10-10 13:10:00哪篇啊? 我架个网站备份那篇,你想删联络我一定删
作者:
sppmg (sppmg)
2021-10-10 14:01:00我看唯一的问题应是:如何发文不留痕迹?
作者:
Apache (阿帕契)
2021-10-10 15:30:00不要上网
作者: MonyemLi (life) 2021-10-10 17:59:00
如果你是说删除,那叫特权,工程师不能任意删除的。公司主管授权维运工程师,政府公权力要求私人企业
作者: longlongint (华哥尔) 2021-10-10 18:28:00
问netflix怎么防止用直播截取卡把鱿鱼游戏录下来阿你文章就发出来了
作者:
chocopie (好吃的巧克力派 :))
2021-10-10 19:04:001. 直接爬BBS、爬PTT网页版、爬别人的爬虫2. 如何防止? 1. 发在有读取权限的版 2. 不要发文3. 台面上方法有许多,台面下方法不好说
作者:
mathrew (Joey)
2021-10-10 19:27:00砍东西就是骇客行为啊,资讯资产保留的有一定的规范,不是你要砍就砍
作者:
Apache (阿帕契)
2021-10-10 19:30:00你可以用GDPR去要求删除
作者:
TakiDog (多奇狗)
2021-10-12 12:58:00支离破碎的发言
作者:
andrew5106 (撿到一百塊雷~)
2021-10-12 18:11:00啊不就爬虫之前试过在文章开头加个HTML注解,有些备份网站就抓不到内文尝试更改你的内文阿,或是故意加一些语法让爬虫程式错乱认不出来爬虫只能抓固定Pattern的东西吧