Re: [讨论] 语文效率的伪科学 fw190a PTT批踢踢实业坊

Re: [讨论] 语文效率的伪科学

楼主: fw190a (las) 2023-09-25 16:47:08

※ 引述《innominate (innominate)》之铭言：
: 香农信息熵的概念是这样
: 1. Plamc是人
: 2. Plamc是男人
: 3. Plamc是PTT前版主以及作家
: 当你把plamc当作一个黑盒子
: 去告诉一个不知道底细的路人
: 1成立的机率最高
: 2其次，3最低
: 所以机率越低的信息量越大，所以叫信息熵
: 因为如果信息为真
: 代表你排除了更多的不确定性
: H = -k log P
: H是信息量 P是成立的机率
首先第一个问题，
熵跟讯息量是高度相关但不同的概念。
你给的公式算的是熵，
他要做为讯息量成立的前提是，
系统必须是确定性的。
然后你对这个熵值的系统，给出一个确定唯一的答案，
这时计算出来的信息量就等于熵值。
讲人话就是，
我有一组密码，然后你直接就猜到。
所以你输入的数字(讯息量)等于我密码(熵)的复杂度。
选项越多，机率越低，导致熵越大，
进而导致需要完整解答的讯息量也更大。
两者是在一个特殊情况下一致，成立数学概念，
而非是可直接互换的概念。
: 推 fw190a: 熵是表达混乱/复杂度的，机率低导致讯息量高是从中推导出 09/24 20:
30
: → fw190a: 的概念，这要说也是讯息量的特性，而不是熵的。我知道这 09/24 20:
30
: → fw190a: 很绕，但我认为我的表达是有涵盖这些概念的 09/24 20:
31
: → innominate: 香农引进熵的概念就是要表达越混乱，机率越低，信息量 09/24 20:
40
: → innominate: 越大。就像“plamc是一个人”，这个机率很大，也不混 09/24 20:
40
: → innominate: 乱，信息量就很低。 09/24 20:
41
: → innominate: 所以信息量天然就跟不确定（机率）挂钩 09/24 20:
43
: → innominate: 你的文章说信息量首先跟信息的多少有关，这件事理解就 09/24 20:
44
: → innominate: 是错的 09/24 20:
45
首先单就讯息量的概念先后顺序，
"1928年，R．V．L．哈特莱提出了信息定量化的初步设想，
他将符号取值数m的对数定义为信息量，即I=log2m"
再来比起熵，这个单位才是用来衡量讯息量的。
https://en.wikipedia.org/wiki/Shannon_(unit)
注意到这边的机率设定就是简单的用50%来衡量。
然后我前文之所以强调先有多少讯息，
是因为要构成系统本身，也是需要讯息的，
他的熵概念建立在，透过机率评断一个系统内给定信号的讯息量，
但首先要有那个系统，而不只是一个假设为真而已。
: → innominate: 我可以说一大串包括明天太阳会从东方升起，你跟我都是 09/24 20:
46
: → innominate: 人，我们都要呼吸等等，这些东西堆再多信息量也是低的 09/24 20:
46
: → innominate: 如果我说“明天台股会跌”，如果我说的为真，这短短的 09/24 20:
48
: → innominate: 几个字带来的信息量就大了 09/24 20:
48
: → innominate: 或者说“明天台股会跌105点”，那这个信息量更大 09/24 20:
49
其实我主要是想回这边，分享一些想法，
没有针对你，你也可以说你是通俗的举例说明。
只是借由这个例子思想实验，
顺便给大家娱乐一下。
，，，
首先你说确定是真的，堆再多讯息量也低，
但照理说，给出已知的事物，讯息量应该是0才对，
再来吊诡的会是，预测明天台股跌，在明天以前，始终就是一句空话，
但一旦到了明天，台股真的跌了，就变成事实，这句话也只是说明已知事物，
讯息量为0。所以自始自终，你拥有的讯息量就只有话语本身。
然后你靠一句如果为真，来假设性获取讯息量。
那个虚拟的讯息量来自于，对一个想像的有限系统进行操作。
你的讯息量就只是，透过讲得多荒谬，然后加上一个假设性的保证为真来获取。
这是印度神童power吗XD
，，，
现实世界的一个问题是，他并没有那个已知的机率让你去评断谁机率大小，
明天会不会下雨，到了明天，只会有一个结果，而不是用机率来呈现。
如果看天气预报，得到机率，那是透过科学算出来的，
科学算出一个10%的降雨机率，那并不是要告诉你讯息量多大，
或者降雨量机率越小讯息量如何越大，因为反过来说出太阳，也成立，
科学告诉你的机率就只是预测，而不是那个我们能确知的机率。
如果你相信科学的世界观，那胡乱套用那个讯息量概念，
结果就只是，越不科学，越脱离常识的预测，蕴含讯息量就越大。
因为当预测成真了，就否定了现有科学，那讯息量自然大。
，，，
从正面意义来说，讯息量大代表的是，
一个不符合预期的例子，如何推翻或要求理论的修正，
所以当科学遇到新的无法解释的情况时，
会促使产生修正与新理论，
但新理论的形成，需要的是更多讯息的投入与整合，
跟否定既有的成分的讯息，只能说是有因果关系。
极端来说，我只要说这个世界是假的，
如果此言为真，那讯息量极致大，
因为我一句话推翻了一整个世界观的复杂度，
但这种讯息量没啥好追求的，
而且之所以有东西能推翻，
是因为这个世界的相关脉络先存在于各人认知之中。
，，，
最后回到一开始的举例上，
堆叠是人，是男人，是男作家，这三个例子，
其实是在透过这三个叙述，文字上传递越来越多资讯，
只是他们排序上套在一起，所以在类别的脉络上构成了机率的规则，
如果我提出Plamc是人，或是恐龙，或是霸王龙。
这时不套用预先的认知，是要怎么判定恐龙机率高还是人类机率高?
黑盒子在哪?
所以把那套基于已知机率的讯息量想像，
套入现实的预测，却没有适当修正，就是伪科学。
因为我们在现实世界，用的是加法逻辑，
去找那个堆叠起来讯息量最大而不矛盾的系统，
也就是科学以及常识来作为行动依据，
而不是靠什么机率小的瞎猜获得讯息量。
，，，
排除不确定性，是一个语言工具性的功能，
建立具有复杂度的理论，才是思想的建构方式。
以日常生活的语言思想活动中，
我打一堆字阐述一堆概念，并且能跟逻辑常识接合起来，
这才是讯息量大。
而不是丢一个概率小的预测，即使成真了，
但缺乏相关的理论与逻辑支撑，
那样的讯息量会是什么东西？
这篇试图说明了。

作者: innominate (innominate) 2023-09-25 19:21:00

我其实看不懂你要表达什么，我只是在简单科普香农的理论而已信息量跟信息是否正确说两码子事好比你举的例子，plamc是恐龙，这个信息量很大，但未必为真。我再简单举个比较容易懂的例子，好比我现在要存心骗一个人，我产生一个谎言，这个谎言一样带有信息量，我的目的是要把这个信息量传递给接收者所以香农公式里面前面带有一个负号以保证信息量永远为正。其实你跟我扯这个真没意思，要不你去推翻香农熵的概念，我帮你赞声https://en.m.wikipedia.org/wiki/Entropy_(information_theory)For instance, the knowledge that some particular number will not be the winning number of a lotteryprovides very little information, because any particular chosen number will almost certainly not win. However, knowledge that a particular number willwin a lottery has high informational value because it communicates the outcome of a very low probability event.

作者: joh (30分灭一国的匈奴) 2023-09-25 21:38:00

说得没错，也说到重点了，楼上你仔细看看

作者: innominate (innominate) 2023-09-25 23:49:00

我不知道我要仔细看什么？科普个香农的信息熵罢了你们要取推翻信息论是你们家的事我上面引的维基百科的英文不知道楼上看了没

作者: tomer (卯月影) 2023-09-26 00:30:00

他在教你信息量和熵是怎么来的。其实从这边就能看出谁受过正规的数学训练、谁只是看图说故事w

作者: innominate (innominate) 2023-09-26 03:38:00

连信息熵定义都没搞懂的能教我什么？我上面引的英文看了没？连英文都要我帮你们翻译吗？https://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf香农的原文自己去看我大概理解ZM为何有的时候根本不想解释了，马的给你们科普还要被杠讲的信息论好像我发明的一样，你们要杠去杠香农啦我的记忆都回来了，当年在历史版也科普过恶性通膨的经济理论，也一堆杠精来杠我再引维基百科的英文描述如下：The core idea of information theory is that the "informational value"of a communicated message depends on the degree towhich the content of the message is surprising. If a highly likely event occurs, the message carries very little information. On the other hand, if ahighly unlikely event occurs, the message is muchmore informative.维基也不看，论文也不看，书也不看，就只会杠然后本篇错误的把“单位量”跟“熵”切开，不是这样好吗？依照他自己引用的维基原文：The “shannon”alsoserves as a unit of the information entropy of anevent, which is defined as the expected value of the information content of the event 。是熵的单位可以为SH

作者: tomer (卯月影) 2023-09-26 07:16:00

就，维基不是圣经啊XD然后你和 Z麦一样毛病、一直认定只有你俩看得懂英文、维基上几句英文就当作是真理目空一切到处乱套。注意我不是说维基讲错喔，是你受的数学训练不够导致理解出现盲区。 f 在这边讲的需要的是机率论中随机事件的基本概念，大概是大二修机率论时教授一开始会给的，也算是ABC等级的东西吧。他稍微带了下从机率论的视角怎么理解夏农熵和资讯量、毕竟整个理论是从机率论推导出来的。但很明显你没受过相关的训练又想要反驳，就只能一直跳针叫人去看英文维基的几句话。说实在只能微笑呀。

作者: joh (30分灭一国的匈奴) 2023-09-26 09:53:00

把wiki当神....都不知道地雷都在细节中

作者: moslaa (万变蛾) 2023-09-26 10:00:00

" target="_blank" rel="noreferrer noopener nofollow">

作者: innominate (innominate) 2023-09-26 11:56:00

所以杠精只能跳针大二机率论，你们连信息学都看不懂，自己引的维基都不看，要说先引维基的不是我，你们立场对了就不质疑他，历史版杠精就是拿大学基础课程来呛别人哪怕我引用的维基内容有误吧，你们好歹也要说明是哪句话有误，论文我也放了，你们不针对内文讨论，在那边跳针大二机率，我通讯/计算机研究所毕业的还要你们教我机率？

作者: joh (30分灭一国的匈奴) 2023-09-26 14:13:00

也没人针对机率论，针对的事情不只有这些

作者: ZMittermeyer (我不是善良老百姓) 2023-09-26 22:27:00

他们两个不是杠精是看不懂和几个基本定义搞反中文脑会天生搞反一些基本定义我发现动态脑数学脑和静态脑文字脑是两种系统你把基础搞反之后演绎推理会盖出相反大厦

继续阅读