[请益] 备份网站的技术?

楼主: yobook (@@)   2021-10-09 09:40:57
花了很多P币,跟时间再研究google跟备份网站
备份网站不是用多线程爬虫技术吗?
但是好像发现了,没有这么简单
好像每个版,测试过,被备份的方式不同....
说简单,但也不简单
这类网站所依赖的技术,其实满简单的
但是PTT只要发文权限跟方式不改,永远都一定会被备份
发文的那个瞬间,因为很多地方不能改变,只能发文后再改
所以,第一次的文章标题,还有发文者一定会被纪录
本文可以修改,所以必须等第二次才能解决
想问一下,PTT备份网站,像是PTTWEB 所仰赖的技术.....
谢谢!
损失好多P币跟时间,血泪,才得到这种结论.....
人脑真的比不上电脑QQ
作者: gasbomb (虚空雷神兽)   2021-10-09 10:03:00
……有人看得懂这篇吗?
作者: yinxuanh (飘飘然)   2021-10-09 10:08:00
伸手文啊
作者: loadingN (sarsaparilla)   2021-10-09 10:09:00
为什么会损失p币
作者: Raymond0710 (雷门)   2021-10-09 10:14:00
作者: PttLite (PTT Lite)   2021-10-09 11:08:00
看标题进来因为是DB backup或snapshot结果是爬虫...我快跟不上时代了..
作者: qrtt1 (有些事,有时候。。。)   2021-10-09 11:55:00
看不懂想要干麻
作者: wahaha279 (哇哈哈:3)   2021-10-09 11:58:00
看不懂在说什么
作者: yougigun   2021-10-09 12:02:00
我也跟不上你的脑
作者: brianhsu (坟墓)   2021-10-09 12:09:00
请先阅读“提问的智慧”,谢谢。
作者: chocopie (好吃的巧克力派 :))   2021-10-09 12:50:00
先定义你要备份的内容是什么。是原本的内容一模一样?还是只爬文章文字内容?
作者: JimRoid (小绵绵)   2021-10-09 12:55:00
看标题我以为你是要问快照之类的
作者: utdsml (阿边肥)   2021-10-09 13:02:00
原 po 应该是想问备份 PTT 里面所有发推文纪录的网站
作者: moom50302 (武林三羚鳄)   2021-10-09 13:05:00
ctrl+S…?
作者: eduishappy (开心就好)   2021-10-09 13:06:00
我觉得PTT备份文章的网站真的好厉害喔!全都可以记录
作者: stupid0319 (征女友)   2021-10-09 13:37:00
偷取别人网站内容叫备份¿¿¿
作者: geroge0820 (可.....可恶)   2021-10-09 13:43:00
这就是工程师和客户之间的思维差异
作者: kyoe (缘份‧不再)   2021-10-09 13:47:00
只要格式固定,都可以被解析
作者: flypaper (一直飞)   2021-10-09 14:31:00
我程度太差看不懂 QQ
作者: roccqqck (ccqq)   2021-10-09 15:18:00
爬虫作业自己写欸 本来每个网站爬虫都不一样都要修改
作者: Olwen (欧温)   2021-10-09 15:45:00
明明是中文,我确听不懂
作者: PttLite (PTT Lite)   2021-10-09 15:54:00
要用眼看
作者: ChungLi5566 (中坜56哥)   2021-10-09 16:33:00
看不懂的都没有成为PM的资质客户说的备份 要跟工程师说逆向工程才听得懂
作者: wave1et (百分百殖利率)   2021-10-09 17:19:00
ptt有个allpost版吧
作者: PttLite (PTT Lite)   2021-10-09 18:12:00
为什么要对自己的网站做逆向工程
作者: RINPE (RIN)   2021-10-09 18:18:00
没有什么是复制贴上解决不了的
作者: sniper2824 (月夜)   2021-10-09 19:25:00
2012做到现在发文发问还像完全不懂程式的外行着实厉害
作者: bill0205 (善良的小孩没人爱)   2021-10-09 20:21:00
对不起我还真的看不懂
作者: aidansky0989 (alta)   2021-10-09 20:22:00
这个表达能力不愧是工程师
作者: OrzOGC (洞八达人.拖哨天王)   2021-10-09 20:22:00
我看得懂,有人可以捡我去当PM吗?QQ
作者: viper9709 (阿达)   2021-10-09 20:45:00
看不懂想问什么+1
作者: pilor (Formosa)   2021-10-09 20:54:00
我看得懂中文看不懂这篇文
作者: boy70263 (Johnny)   2021-10-09 21:34:00
Ctrl+A+C+P
作者: ChungLi5566 (中坜56哥)   2021-10-09 21:57:00
偷别人网站内容 然后做出相似的东西放出来 他想知道那些网站怎么办到的
作者: wulouise (在线上!=在电脑前)   2021-10-09 23:41:00
没讲解决要解决什么,一百遍都猜不透吧
作者: BignoZe (BignoZe)   2021-10-09 23:54:00
看得懂 还好我有看完新上的通灵王
作者: Kazimir (Kazimir)   2021-10-10 04:46:00
公开网站要怎么防止备份 你要他们删文不然写信去问看看R
作者: qrtt1 (有些事,有时候。。。)   2021-10-10 08:31:00
只有一开始就不存在的东西不会被备份
作者: MarcoReus (Marco Reus)   2021-10-10 08:48:00
反向思考 你可以发加密文
作者: art1 (人,原来不是人)   2021-10-10 09:38:00
去跟 ptt 站方要求禁止来自这些网站的爬虫应该说请求才对
作者: FantasyRyu (眩惑之龙)   2021-10-10 09:50:00
公开网站可以防爬虫的话,那一开始你就发加密网站就好
作者: daddy29 (愿上帝与你同在)   2021-10-10 10:19:00
砍站
作者: aa06697 (todo se andarà)   2021-10-10 10:56:00
公开网站 网站也不是你拥有的话 你单纯发文没办法防吧
作者: WJAider (Aider)   2021-10-10 13:10:00
哪篇啊? 我架个网站备份那篇,你想删联络我一定删
作者: sppmg (sppmg)   2021-10-10 14:01:00
我看唯一的问题应是:如何发文不留痕迹?
作者: Apache (阿帕契)   2021-10-10 15:30:00
不要上网
作者: ChungLi5566 (中坜56哥)   2021-10-10 17:08:00
骇进去砍啊 不然就走法律途径
作者: MonyemLi (life)   2021-10-10 17:59:00
如果你是说删除,那叫特权,工程师不能任意删除的。公司主管授权维运工程师,政府公权力要求私人企业
作者: longlongint (华哥尔)   2021-10-10 18:28:00
问netflix怎么防止用直播截取卡把鱿鱼游戏录下来阿你文章就发出来了
作者: chocopie (好吃的巧克力派 :))   2021-10-10 19:04:00
1. 直接爬BBS、爬PTT网页版、爬别人的爬虫2. 如何防止? 1. 发在有读取权限的版 2. 不要发文3. 台面上方法有许多,台面下方法不好说
作者: mathrew (Joey)   2021-10-10 19:27:00
砍东西就是骇客行为啊,资讯资产保留的有一定的规范,不是你要砍就砍
作者: Apache (阿帕契)   2021-10-10 19:30:00
你可以用GDPR去要求删除
作者: TakiDog (多奇狗)   2021-10-12 12:58:00
支离破碎的发言
作者: realbout (萨摩诃)   2021-10-12 15:10:00
这篇是三小....
作者: andrew5106 (撿到一百塊雷~)   2021-10-12 18:11:00
啊不就爬虫之前试过在文章开头加个HTML注解,有些备份网站就抓不到内文尝试更改你的内文阿,或是故意加一些语法让爬虫程式错乱认不出来爬虫只能抓固定Pattern的东西吧
作者: uglykidjoe (uglykidjoe)   2021-10-22 17:24:00
怎么这么多会通灵的人,真是太厉害了

Links booklink

Contact Us: admin [ a t ] ucptt.com