Re: [问题] InputStreamReader的read() sbrhsieh PTT批踢踢实业坊

Re: [问题] InputStreamReader的read()

楼主: sbrhsieh (十年一梦) 2015-02-08 22:35:17

※ 引述《OoShiunoO (机机勋)》之铭言：
: 最近在看欧莱里的JAVA网络程式设计
: 里面有讲到这段code:
: InputStreamReader r = new InputStreamReader(in, "MacCyrillic");
: StringBuilder sb = new StringBuilder();
: int c;
: while((c=r.read()) != -1) sb.append((char) c);
: return sb.toString();
: 他是读取某个输入串流in,并以MacCyrillic编码转换为unicode字串输出。
: 其中read()会回传0~65535的int，这代表Unicode字符，
: 我的问题是为什么只会回传0~65535而已?Unicode编码不是有好几百万个吗?
: 另外，(char)这个强制转型是把int转成char，它的转换标准是依据什么呢?
我建议直接看一下 java.lang.String, java.lang.Character API doc。
http://docs.oracle.com/javase/7/docs/api/java/lang/String.html
http://docs.oracle.com/javase/7/docs/api/java/lang/Character.html
JRE 对 Unicode 的支援是版本相依的，早期的 JRE(1.5-)只支援所谓的 BPM:
\u0000 ~ \uFFFF 这范围，所以 Java char 是 2 bytes，在内存的 bits layout
同 byte/short/int/long 这一类的 integral type(2's complement)，只差 char
是 unsigned。
API doc 指出 Java 1.7 支援 Unicode Standard v6，unicode 的范围是
\u0000 ~ \u10FFFF。
确实有些字是无法单用一个 char 来存其 unicode 码，这时候会使用两个 char 来
代表一个字(surrogate pair)。
大致上来说 Java 1.5 开始去支援 BPM 以外的字，所以 Character class 中
许多 method 都引进吃 int type 的 overloading 版本(本来吃 char)。

作者: LPH66 (-6.2598534e+18f) 2015-02-08 23:48:00

另可参见我这篇久远之前的回文: #17vduTG2然后其实 0x10FFFF = 1114111 确实到百万了只是 BMP 以外只有少数几个 plane 有字而已而且没记错还有几个 plane 整个是 Private use 的

继续阅读

[问题] InputStreamReader的read()OoShiunoO [问题] 关于java GUI的问题hank61204 [问题] 谁可以帮我看看这是不是Javamozziewu [问题] JNA调用BCB写的DLLnola3388 [征才] Android App 工程师shiangerl [问题] 从字串提取出的字符如何比较？wkt [问题] JavaFX 8, 背景颜色设定问题oldwhite [问题] 简单的UDP程式一直报错liataian [问题] 寻找 JavaByteCode 工具 [已找到]darkk6 [问题] FB GRAPH API 请求jay80915