Re: [请益] Unicode, UTF-8, UTF-16, UTF-32?

楼主: LPH66 (-6.2598534e+18f)   2014-03-29 21:50:54
※ 引述《x2006 (冬眠)》之铭言:
: Unicode的档案是不是只分为底下五类?
: 00 00 fe ff : UTF-32, Big Endian
: fe ff 00 00 : UTF-32, Little Endian
ff fe 00 00
: fe ff : UTF-16, Big Endian
: ff fe : UTF-16, Little Endian
: ef bb bf : UTF-8
其实名字以 UTF 开头的编码还不只这些, 只是这些相对常用而已
其中最常用的是 UTF-8
UTF-16 也不少见
UTF-32 则比较没什么看到, 主要还是浪费空间
(一个字占 4 byte, 如果全是英文则有 3/4 的 byte 是 0,
如果是常用中文则有一半是 0,
然后由于 Unicode 只到 U+10FFFF 的关系, 永远至少有 1/4 的 byte 是 0)
: Notepad打开分为底下四类:
: ANSI
: Unicode (就是UTF-16, Little Endian?)
: Unicode big endian (就是UTF-16, Big Endian?)
: UTF-8
以上正确
另外要讲的是 Notepad 所存成的 Unicode 档案都会有 BOM
(就是你上面列的那些 byte)
这会造成一些判断档案开头有没有东西的程式失效或出问题
例如 PHP 程式如果有 BOM 则会先行输出以致于无法更改 header 资讯
: 记得早期在写网页的时候,只用ANSI. XD
: 现在大部分的网页好像都是用UTF-8.
: 有人用UTF-16或UTF-32来写网页的吗?(什么情况下会用到?)
UTF-32 如上所说比较没什么在用
UTF-8 胜过 UTF-16 的一点是:
对于纯英文的文字 (也就是只使用 ASCII < 127 的字符的文字)
它自动就是一个正确的 UTF-8 编码文字
这才使得 UTF-8 比 UTF-16 来得常见
在其他方面我觉得其实两者没什么差就是
作者: x2006 (?)   2014-03-29 22:14:00
多谢LPH66大大的指点有次看到网页原始码写UTF-16,不知why会这样?希望有高手解答
作者: s25g5d4 (function(){})()   2014-03-29 23:48:00
他高兴设为 UTF-16 阿... 也许他真的用到超出 UTF-8 的字我搞混 UTF 跟 UCS 的意思了...囧UTF-8 可以显示所有 Unicode 字符 (但是程式支不支援就..)
作者: buganini (霸格尼尼)   2014-03-30 01:57:00
作者: altecjc (嘉诚)   2014-03-30 23:14:00
这篇文太棒了,之前想找都没找著,谢谢大大分享,大推

Links booklink

Contact Us: admin [ a t ] ucptt.com