Re: [闲聊] ChatGPT是语言模型不是搜寻引擎 ZMTL PTT批踢踢实业坊

Re: [闲聊] ChatGPT是语言模型不是搜寻引擎

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 13:13:50

本来没想这么早回这篇的，不过既然都有人把讨论串回起来了我丢点资讯，
既然都会看网红发表对ChatGPT的看法（没有贬义），我觉得也可以看看这个：
台大电机副教授李宏毅老师的ChatGPT讲解（先回到PTT还是学术论坛XD）
ChatGPT (可能)是怎么炼成的 - GPT 社会化的过程
https://www.youtube.com/watch?v=e0aKI2GGZNg
【生成式AI】ChatGPT 原理剖析 (1/3) — 对 ChatGPT 的常见误解
https://www.youtube.com/watch?v=yiY4nPOzJEg
【生成式AI】ChatGPT 原理剖析 (2/3) — 预训练 (Pre-train)
https://www.youtube.com/watch?v=1ah7Qsri_c8
然后我们再看看ChatGPT自己的回答：
https://images.plurk.com/5CKBXnjItrJaEiXATSi9FU.png
https://images.plurk.com/3pNJ04L9ZKlYLoTiiOt0Wu.png
https://images.plurk.com/4nBzckjPusdj9fOfOr75KJ.png
https://images.plurk.com/2Np2UAT7VJhkZyLWU2pyVk.png
https://images.plurk.com/qwyS6StjeFtfK6loo4gum.png
https://images.plurk.com/37ATMfNB95Y28Nx6fJu9N2.png
https://images.plurk.com/xgCaTlpcj3FWK01ytw59X.png
https://images.plurk.com/6TmIRatDJL80VeyTzqkagW.png
当然，我都说ChatGPT未必能回答正确的内容，以上ChatGPT的作答仅供参考，
但根据OpenAI自己的说法比较确定的几点：
1.ChatGPT没有连网
2.ChatGPT大部分的资料只到2021年9月
3.ChatGPT本身没有储存他看过的那些训练他的文本
4.ChatGPT是根据训练好的模型(除非微调不然不会变动)来进行理解回答而非检索资料
其实34点就跟AI绘图究竟是不是拼贴指的是类似的问题。
我想这边的内容应该也足以回应csqwe板友
→ csqwe: 我反而觉得这篇的理解反而才是问题很多 chatGPT要说是语言02/24 17:53
→ csqwe: 是没错拉但是为什么他不能同时是搜寻引擎因为正确性? 你02/24 17:53
→ csqwe: 的搜寻引擎都不会搜错吗?以现在chatGPT的表现来说正确度比02/24 17:54
→ csqwe: 任何搜寻引擎都高了吧再来理论上你是无法真正判断chatGPT02/24 17:55
→ csqwe: 是否"不知道"某个议题的顶多他说出的答案你觉得不正确但02/24 17:56
→ csqwe: 是你无法知道他是不是真的"不知道" 真的理解他的原理不会说02/24 17:56
→ csqwe: 出这种结论语言模型阅读大量资讯之后就是把某一个单字相02/24 17:58
→ csqwe: 关的资讯全部跟这个单字做连结成为这个单字身分的一部份02/24 17:59
→ csqwe: 所以当你询问他的时候他就把这个单字跟你想要知道的情报相02/24 17:59
→ csqwe: 关的资讯抽出给你这不正适合拿来当搜寻工具吗?02/24 18:01
→ csqwe: 我建议你放弃反正想用多的去了然后除非你有明确理论证据02/24 19:00
→ csqwe: 证明他有乱掰的这项能力(这个真的比较难) 不然你才乱掰02/24 19:01
ChatGPT是个很好用的工具，我也在用，但如果先把ChatGPT的名字遮起来，
你会用一个没有连网、不会更新资料、不记得资料只凭印象回答你的工具当搜寻引擎吗？
那为什么微软还要专门搞一个结合GPT搜寻引擎Bing呢XD
拉回来补个洽点，同样是李老师的影片：
【生成式AI】用 ChatGPT 和 Midjourney 来玩文字冒险游戏
https://www.youtube.com/watch?v=A-6c584jxX8
不过我最近才开始在看GPT/GPT3的论文，了解的可能也有误，
有本科的板友欢迎留言勘误指点，感谢。

作者: csqwe ( ) 2022-02-24 17:53:00

我反而觉得这篇的理解反而才是问题很多 chatGPT要说是语言是没错拉但是为什么他不能同时是搜寻引擎因为正确性? 你的搜寻引擎都不会搜错吗?以现在chatGPT的表现来说正确度比任何搜寻引擎都高了吧再来理论上你是无法真正判断chatGPT是否"不知道"某个议题的顶多他说出的答案你觉得不正确但是你无法知道他是不是真的"不知道" 真的理解他的原理不会说出这种结论语言模型阅读大量资讯之后就是把某一个单字相关的资讯全部跟这个单字做连结成为这个单字身分的一部份所以当你询问他的时候他就把这个单字跟你想要知道的情报相关的资讯抽出给你这不正适合拿来当搜寻工具吗?我建议你放弃反正想用多的去了然后除非你有明确理论证据证明他有乱掰的这项能力(这个真的比较难) 不然你才乱掰

作者: x2159679 (（● ω ●）) 2023-02-26 13:18:00

https://leafwind.substack.com/p/ai

作者: r98192 (é›…ç‰¹) 2023-02-26 13:19:00

当你问超过ChatGPT数据库的时候他会说瞎话这点很糟糕

作者: x2159679 (（● ω ●）) 2023-02-26 13:19:00

贴一下这篇好了这样讲好了对大部分的人来说其实你说的根本不重要正不正确很重要吗? 大部分人想要的只是"煞有其事"而已

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 13:20:00

所以我说ChatGPT是很好用的工具，我自己也很爱用但如果问他一个有明确答案的问题，再来说ChatGPT好烂都乱答

作者: r98192 (é›…ç‰¹) 2023-02-26 13:21:00

所以有些人就把那些瞎话当正解来看这个真的很恐怖…

作者: Yan239 (彦) 2023-02-26 13:21:00

我记得不是有人叫他模拟linux终端，然后上网还成功连上自己，然后用自己把linux终端里的自己又模拟一个linux终端

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 13:21:00

那就本末倒置了，但我看最近确实有人这样说XDD

作者: kimokimocom (A creative way) 2023-02-26 13:22:00

药的标示相反不重要油门煞车相反不重要都不重要

作者: r98192 (é›…ç‰¹) 2023-02-26 13:22:00

你直接问GPT声优资料有很高的机率会乱掰资料给你

作者: BruceChang (=A5e) 2023-02-26 13:24:00

会瞎掰是一种优点以后你会怀念的

作者: kimokimocom (A creative way) 2023-02-26 13:25:00

如果想被永远认为是嘴砲哈拉专用确实都不重要

作者: BruceChang (=A5e) 2023-02-26 13:25:00

如果强制不能装懂协同创作能力会变成零蛋

作者: skyofme (天空人) 2023-02-26 13:27:00

喜欢看软件瞎掰没关系，但不管掰的多有趣那都不能说是搜寻引擎吧?

作者: TeamFrotress (Heavy is Dead) 2023-02-26 13:28:00

科普推

作者: GAOTT (杜鹃) 2023-02-26 13:32:00

现在大家心里想的是只跟你聊天打屁的有这种猛度那职业化

作者: tony81456200 (奥拉) 2023-02-26 13:33:00

可是它不跟我谈政治(X

作者: lsd25968 (cookie) 2023-02-26 13:34:00

水啦李弘毅老师大家都该看他的教学影片

作者: x2159679 (（● ω ●）) 2023-02-26 13:34:00

换个角度来看如果真的是搜寻引擎的话答案就一定是对的吗?理想很美好但现实是骨感的例如以游戏攻略来看，现在的游戏攻略一堆盗文(复制)网站

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 13:35:00

当然不是，但你可以自己比较第一页甚至三四页的搜寻结果

作者: x2159679 (（● ω ●）) 2023-02-26 13:36:00

网络进步结果就是必然要承受人类本身的浑沌性

作者: skyofme (天空人) 2023-02-26 13:36:00

因为搜寻引擎不负责判断正确性

作者: arrenwu (键盘的战鬼) 2023-02-26 13:36:00

撇开AI做图的问题。3.4. 那个在语意上会有误会我们可以肯定ChatGPT没有 verbatim 地存文本但同样根据李弘毅的简介，他是根据训练好的模型把回应

作者: skyofme (天空人) 2023-02-26 13:38:00

也许以这个语言模型为基础他未来可以增加这个面向的功能，但现在就是没这机能

作者: arrenwu (键盘的战鬼) 2023-02-26 13:38:00

建立出来这个行为上就类似资料压缩的概念举个例子：mp3 跟 wav的关系。mp3 并没有完全把wav所有

作者: skyofme (天空人) 2023-02-26 13:39:00

如果要类似使用手册这种有限范围内的自然语言索引也许还比较没问题

作者: arrenwu (键盘的战鬼) 2023-02-26 13:40:00

把高频片段砍掉。但说mp3没有存wav内容这个现在不成立的但我同意ChatGPT要当搜寻引擎用满难用的就是了

作者: kimokimocom (A creative way) 2023-02-26 13:42:00

搜寻引擎又没用话术叫你信他找的唯一结果ww

作者: arrenwu (键盘的战鬼) 2023-02-26 13:43:00

比较好奇 New Bing 会怎么整合GPT的机能

作者: CowGundam (牛钢) 2023-02-26 13:43:00

可是之前不是有人发现他知道推特的ceo 是马斯克，然后说2019应该还不是之后就开始装傻了吗XD

作者: kimokimocom (A creative way) 2023-02-26 13:43:00

GPT会为说明他是对的撇一些理由让你信他就是在聊天

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 13:44:00

现在打开Bing应该就有范例了

作者: x2159679 (（● ω ●）) 2023-02-26 13:44:00

大家可能要想到一件事，这边是一个同温层

作者: lsd25968 (cookie) 2023-02-26 13:44:00

https://i.imgur.com/NNmkrN2.jpg

作者: arrenwu (键盘的战鬼) 2023-02-26 13:44:00

@CowGundam https://bit.ly/3krqlKL 这个XD

作者: CowGundam (牛钢) 2023-02-26 13:44:00

对对，这个我印象超深刻XD

作者: lsd25968 (cookie) 2023-02-26 13:45:00

AI会骗人恐怖如斯==

作者: kimokimocom (A creative way) 2023-02-26 13:45:00

应该说他很像小学时候说什么我同学我朋友那种资讯

作者: arrenwu (键盘的战鬼) 2023-02-26 13:45:00

ChatGPT本质上就是 ChatBot

作者: HotDogCC (0.38别骗) 2023-02-26 13:46:00

不是搜寻引擎很好理解，毕竟它就没有搜索的功能…

作者: skyofme (天空人) 2023-02-26 13:46:00

判读能力有没有问题那是人自己的事情，所以搜寻引擎本来就不为自己的搜寻结果背书，他只是呈现给你高相关的资料

作者: arrenwu (键盘的战鬼) 2023-02-26 13:46:00

搜寻引擎给你的是他找到的一票网站搜寻引擎不会回答你任何问题

作者: skyofme (天空人) 2023-02-26 13:47:00

怎么消化成有效的资讯仰赖人自己的脑袋

作者: arrenwu (键盘的战鬼) 2023-02-26 13:47:00

是人来决定搜寻引擎自己用起来解决问题是不是有效率

作者: bitcch (必可取) 2023-02-26 13:48:00

chatGPT应该有偷偷接上某些现实资料

作者: skyofme (天空人) 2023-02-26 13:48:00

如果你是想说那chatgpt就是一个爱不懂装懂的唬烂嘴在帮你查资料，好啦给过吧?

作者: lay10521 (小伊达) 2023-02-26 13:48:00

他会回答ChatGPT的问题但那些资讯是谁喂给他的==

作者: bitcch (必可取) 2023-02-26 13:49:00

之前请他写封信最后的日期直接写当天但要精准查还是要bing那个

作者: arrenwu (键盘的战鬼) 2023-02-26 13:51:00

ChatGPT 没有所谓的“懂不懂”，他就是根据训练过的资料生成文本而已

作者: x2159679 (（● ω ●）) 2023-02-26 13:51:00

BING前阵子不是还被nerf了吗我觉得这是ai难以逃脱的命运就是了

作者: arrenwu (键盘的战鬼) 2023-02-26 13:52:00

这篇贴的李弘毅提到的对ChatGPT常见误解有提到

作者: skyofme (天空人) 2023-02-26 13:52:00

反正他想讲的就大概那意思吧

作者: n99lu (大家都有病) 2023-02-26 13:53:00

媒体的炒作只能让人更误解ai而已

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 13:53:00

ChatGPT"大部分"的资料只到2021年9月OpenAI后续微调模型时应该也加上了一些新资料啦，当然肯定包含他自己的自我介绍

作者: n99lu (大家都有病) 2023-02-26 13:54:00

每次的回答都有微妙的不同可能是一种游戏npc发言吧

作者: arrenwu (键盘的战鬼) 2023-02-26 13:54:00

ChatGPT要当搜寻引擎用，第一个要改进的就是资料的引源

作者: skyofme (天空人) 2023-02-26 13:55:00

因为人也会搞错，所以就算chatgpt就算没有资讯判读能力，给了你一个看起来像真的错误结果，那也是搜寻引擎

作者: arrenwu (键盘的战鬼) 2023-02-26 13:55:00

你可以每次讲的不一样，但要讲明这些资料是哪里来的

作者: n99lu (大家都有病) 2023-02-26 13:55:00

但欧美一些白痴已经开始把gpt当作是"专业资料"

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 13:55:00

不太可能，因为很可能ChatGPT自己也不知道这些资料是哪里来

作者: arrenwu (键盘的战鬼) 2023-02-26 13:56:00

ChatGPT 并不会告诉你这些语句是哪里来的

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 13:56:00

的，就像是AI绘图我不认为有办法像是有些人要求的必须

作者: CowGundam (牛钢) 2023-02-26 13:56:00

那我不太懂为什么他会被提醒之后否定自己知道这件事而不是跟用户说明资料已更新

作者: tony81456200 (奥拉) 2023-02-26 13:56:00

https://i.imgur.com/4lcjmPw.jpg

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 13:57:00

或者说，他已经揉碎一堆资料了，你没办法要他拼回去

作者: arrenwu (键盘的战鬼) 2023-02-26 13:57:00

绘图那部分问题是你没给“参考资料”战的是版权疑虑回答问题有所谓的“正确or错误”，这是图片没有的东西

作者: n99lu (大家都有病) 2023-02-26 13:57:00

个人玩了几下之后也发觉cpt只是随机生成而不会真的回答

作者: tony81456200 (奥拉) 2023-02-26 13:58:00

他给的资料太单一当搜寻引擎一定出事

作者: abadjoke (asyourlife) 2023-02-26 13:59:00

ChatGPT在配合bing方面我觉得是目前最佳解它对于回答几乎都有附上注记让你判断这句话的可信度但缺点就是大幅降低了对话的自由度

作者: lay10521 (小伊达) 2023-02-26 14:00:00

目前还有可解释性高及准确度高的NLP模型吧*还没有

作者: carlyle159 (柔薰) 2023-02-26 14:00:00

觉得前面推文犯了一个谬误是搜寻引擎没有正确性的保证是一回事但这并不代表没有正确性保证的GPT就反过来可以当成搜寻引擎本质上就不一样不能因为结果上看起来没有差异就混为一谈

作者: n99lu (大家都有病) 2023-02-26 14:01:00

还有我觉得会被人工排除一些敏感消息也是隐忧

作者: arrenwu (键盘的战鬼) 2023-02-26 14:01:00

搜寻引擎只是给你网页连结正确性的判断跟他无关

作者: as80110680 2023-02-26 14:01:00

对于模型来说，所有输出都只是机率函数，但他没有告诉

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 14:01:00

https://images.plurk.com/79uqyXloJgC79b4IYf4NI7.png https://images.plurk.com/6rDv0l90H2CUjDmDnIgHLO.png

作者: arrenwu (键盘的战鬼) 2023-02-26 14:02:00

搜寻引擎最多就是帮你排序他找到的网站让前面的网站可能

楼主: ZMTL (夜风/潇湘 VR板已经开板!) 2023-02-26 14:02:00

这是Chat Bing，没排到封测资格只能试用范例

作者: as80110680 2023-02-26 14:02:00

而且前一篇我也提过了，现在的问题是现今很多操作是被搜寻引擎绑架，可以用更好的解决法是解决

作者: Windcws9Z (闻肉丝就饿) 2023-02-26 14:03:00

我怀疑ChatGPT有连网

作者: as80110680 2023-02-26 14:04:00

*解决方式

作者: Windcws9Z (闻肉丝就饿) 2023-02-26 14:04:00

不然要如何解释2021年的数据库有2022年的资料

作者: signm (sin) 2023-02-26 14:04:00

应该是意外下的产物

作者: CowGundam (牛钢) 2023-02-26 14:04:00

我也觉得一定有，但他声称没有才会修正回答的感觉

作者: Windcws9Z (闻肉丝就饿) 2023-02-26 14:06:00

总不可能一直靠人工去Update八

作者: rhox (天生反骨) 2023-02-26 14:06:00

看到很多人觉得会被ChatGPT取代，我觉得很欣慰

作者: tsubasawolfy (悠久の翼) 2023-02-26 14:07:00

being应该还没连上chatGPT吧记得四月才会一起上4.0

作者: raincole (冷鱼) 2023-02-26 14:11:00

Bing 现在已经有了啊...

作者: Windcws9Z (闻肉丝就饿) 2023-02-26 14:12:00

正常搜寻引擎是没办法判断找到的网站是好或坏八那不都人工去做排序筛选吗

作者: raincole (冷鱼) 2023-02-26 14:12:00

Bing 的那个就是真的搜寻引擎啊结果类似于你用普通的Bing 搜寻然后把搜寻结果贴给 ChatGPT 做摘要

作者: Windcws9Z (闻肉丝就饿) 2023-02-26 14:15:00

不管是哪家的搜寻引擎不都有自己的规则百度 Google Bing都有优先以及黑名单你要没有影响的可以去试试Duck Duck Go的

作者: haudoing (阿华平凡版) 2023-02-26 14:19:00

对正确性要求高的使用者来说，chatgpt能给出有用或有参考价值的资料还是比搜寻引擎少

作者: tsubasawolfy (悠久の翼) 2023-02-26 14:20:00

在想他的回馈资料该不会还要人工审核因为他的输出模型也是靠大量人力去调

作者: arcanite (不问岁月任风歌) 2023-02-26 14:59:00

一个不会立刻联网搜寻分析最新资料只能依赖现有database的AI

作者: Minesweeper (lleh) 2023-02-26 15:17:00

原理真的很像文字接龙，意外的单纯然后资料量和正确性不是线性成长，上限也不高

作者: k1k1832002 (Matoriel) 2023-02-26 15:37:00

chatGPT 的主要资料来源除了日期限制，另外可能以英文资料为大宗，了解一些前提我是觉得问题不大。bing的形式也算是最近相对比较...佳的。不过虽然说会附上来源，但有时候还是不太完全就是了XD像最近我就问它最近公布的一月份美国PCE，各类别数据以及各类别比重整理的一清二楚，不过溯源时还是怪怪的，但基本不妨碍它的强大这样(当然有些自己有在整理可能觉得小事，但...对于一些入门的懒人也是颇方便)

作者: prussian (prussian) 2023-02-26 15:54:00

https://i.imgur.com/z7FAq7K.jpg https://i.imgur.com/R5XtDI7.jpgchatgpt 为了想和妹尬聊，努力看了很多书。你把他当搜寻引擎，并不代表他想成为搜寻引擎，那只是附带的结果。而且以这例来看他为了拼死尬聊下去，回答有时还满渣的。想被这样的“搜寻引擎”玩是个人选择就是了。渣男也是有市场的，有时旁人很难劝。对了，twitter ceo的回答有被修正过了

作者: leviathen (GO BLUE!) 2023-02-26 15:56:00

简单说，chatGPT很像超人，记忆力超好，涉猎广泛，说的东西正确性90%，嘴砲时难以察觉，且最新的消息暂时不知道

作者: arrenwu (键盘的战鬼) 2023-02-26 15:59:00

说的东西正确性90% <---- 没有这回事

作者: WarIII (我爱艾艾) 2023-02-26 16:33:00

我觉得搜索引擎跟chatGPT有一个根本的差别搜索引擎不会讲的一嘴好答案而chatGPT会因为他是语言预训练模型它的专长就是语言这点让它很容易就成为大忽悠

作者: Minesweeper (lleh) 2023-02-26 16:46:00

影片里gpt 3.0的正确性约6成，3.5就不知道了

作者: nyms (nyms) 2023-02-26 16:57:00

推李宏毅老师

作者: uohZemllac (甘草精华雄没醉) 2023-02-26 17:08:00

看到内文才唐突想起PTT是学术论坛XD