楼主:
roger29 (想不到)
2014-06-29 23:46:41因为压缩的比例存在着理论上的极限
假如我现在有A B C D 四个符号
要表示成数位资料的话 直观的方法是让A=00 B=01 C=10 D=11
ASCII code就是类似的7码等长度编码方法
不过呢 这五个符号出现的机率可能不是一样的
假设Pr(A)=0.5 Pr(B)=0.2 Pr(C)=0.2 Pr(D)=0.1
那么用上面直观的方法编码
我的codeword平均长度是 0.5*2+0.2*2+0.2*2+0.1*2=2
那么我们有没有办法让我的平均长度变得更小一点呢(也就是达到所谓的资料压缩)
有的 我们可以善用A B C D四个符号出现机率不相等的特性
A出现的机率最高 所以我直观上希望表示A的二进制长度可以短一点才有效率
D出现的机率最低 所以我就会希望表示D的二进制长度可以长一点没关系
那么换一个方式表示:A=0 B=10 C=110 D=111
这样表示的话我新的codeword平均长度就是 0.5*1+0.2*2+0.2*3+0.1*3=1.8
比原本每个符号都用2个bits来表现还要更小
(注:这个编码方法为著名的Huffman code)
所以我们可以发现 如果能善用资料间的相关性
是可以减少用数位来表示这些资料所需要的资料大小
但是当然不可能无限制的缩小
根据伟大的数学家 消息理论的开山始祖 Claude Shannon的source coding theorem
简单来说
给定一个discrete memoryless source S 就像我上面的四个字母
那么我们能够达到的平均codeword长度会大于等于S的entropy
S的entropy定义成 n
作者:
SDNS (ここには神さまの殿堂)
2014-06-29 23:48:00看八卦涨知识
作者: qcuteba 2014-06-29 23:48:00
看无,我只知道要一直按关闭挺麻烦的
作者:
liaon98 (liaon98)
2014-06-29 23:49:00Huffman只是其中一种吧
作者:
alog (A肉哥)
2014-06-29 23:49:00XDDDD...八卦优质认真文 不给你推不行 虽然很快又被洗掉了
称呼Shannon数学家? 跟称呼科P是医师一样不尊敬
作者:
daxer (德德)
2014-06-29 23:50:00要跟着推 不然别人会以为我看不懂
作者:
snowcoat (excess)
2014-06-29 23:50:00八卦版优文...
她是讲 00 01 10 11 这四种段码出现的机率整合
作者:
NoWashing (你好~ 我叫免洗!)
2014-06-29 23:51:00这么专业 怎么不聊聊超强的圆周率压缩算法勒 XDDD
作者:
goshfju (Cola)
2014-06-29 23:51:00我是不是来错板
作者:
john2557 (Wanger)
2014-06-29 23:51:00精彩
作者:
searoar (æš—å‘大豆)
2014-06-29 23:52:00知识
作者:
HvvH (HH)
2014-06-29 23:52:00推
到底哪里专业了阿? 一个叫Shannon数学家的人 专业在哪?八卦板怎么了?
作者:
alog (A肉哥)
2014-06-29 23:54:00Claude Elwood Shannon --> American mathematician,
作者:
orz811017 (orz811017)
2014-06-29 23:54:00推算法
作者:
CCPenis (匚匚屌)
2014-06-29 23:54:00讲中文好吗
作者:
s9007555 (我想吃地瓜)
2014-06-29 23:54:00文组崩溃
作者:
s0857168 (爱乘欧妹咖)
2014-06-29 23:55:00略懂
作者:
liaon98 (liaon98)
2014-06-29 23:55:00简单来说 你一篇文章最常出现的字叫他为a 不常出现的字
作者:
liaon98 (liaon98)
2014-06-29 23:56:00你就把它改成叫长的字 这样文章就会变短
作者:
LoveMoon (我不是魔兽三国作者.....)
2014-06-29 23:56:00嗯嗯 跟我了解的差不多 推专业
作者:
wind137 (布谷密语)
2014-06-29 23:56:00干 这通讯系统好怀念
作者:
DEATHX (幽光)
2014-06-29 23:56:00优质文,这种都该入精华区,谁还有上次RSA解说文的备份?
作者:
liaon98 (liaon98)
2014-06-29 23:57:00然后少用的字笔画多一点 这样整体你会写比较少画
作者:
JCS15 (马马狗)
2014-06-29 23:57:00我把我压缩 轻轻把你也压缩
作者:
drkkimo (花猫~ 努力工作)
2014-06-29 23:57:00霍夫曼编码不是很基本的吗 有什么好特别专业?
作者: sef96121 2014-06-29 23:59:00
只能朝拜了!
作者:
NDSLite (Matrix in 卧虎藏龙)
2014-06-30 00:01:00优文
作者:
liar5566 (我只是她的寝具)
2014-06-30 00:01:00不错,实力跟我相当
作者:
alog (A肉哥)
2014-06-30 00:01:00XDDD阴森宅宅是沙小la
什么工程师 起码也是数位教父好吗 没他哪来的0101交换电路
作者:
lolic (lolic)
2014-06-30 00:02:00嗯摁 我也这样想 可惜打到一半你先发文了
作者:
ppt0726 (ppt0726)
2014-06-30 00:03:00一优质文章
通讯系统最简单的章节也可以拿来炫XD三大公式 H(s) 互消息 审农第三定律 背起来 100分连理解都不用理解 国中数学 秒杀 ZZZzzz
作者: withfrog () () 2014-06-30 00:12:00
长知识 谢啦
作者:
QueenYi (Queen一定是女的?)
2014-06-30 00:15:00长知识推
作者: zyyym (无聊的人G) 2014-06-30 00:22:00
研究所毕业后都忘光了
作者:
chen20 (sOnE)
2014-06-30 00:32:00分享推!是在悲愤什么
某k是在悲愤什么XDDD 只是分享 又没践踏你的专业看不过去你也分享一拼阿
作者:
evening (小夜)
2014-06-30 01:14:00推
作者: amsonmoon (月光猫) 2014-06-30 01:44:00
他想解释为什么50mb只能压成48.9mb这种情形啊就有人问咩
作者:
aspd5306 (Cereal)
2014-06-30 01:47:00哥的老板专攻消息理论 原po说的东西大概大二大三等级的
作者:
gh26300 (尼安德塔人)
2014-06-30 02:15:00不知道嘘的在悲愤什么……他又没炫耀
作者:
k268185 (k268185)
2014-06-30 02:26:00霍夫曼这算法真的简单又强大
作者:
a055076 (Dilemma)
2014-06-30 03:14:00看到这篇想起一个字 熵
作者:
xdctjh (冻顶)
2014-06-30 03:16:00赞
作者:
a055076 (Dilemma)
2014-06-30 03:17:00通道编码 好怀念的东西