※ 引述《reppoc (稍会)》之铭言:
: 我知道是因为繁体的后=简体的后字
: 繁体的面=简体的面字,
: 简体转繁体时,
: 明明只要把所有有关字词取代成正确的就好,
: 也没多少个特例,
: 繁简转换程式就是做不到,
: 常常看YT影片字幕都会看到面面不分、
: 后后不分,强迫症发作实在让人很不舒服。
: 为什么都没有要改?
: 卦?
因为书写的中文不像书写的英文,有用空格分开成一个个的token,
书时使用的人造符号比较少,以致后面要用电脑处理时困难较大,
具体来说,就是中文的tokenization会比英文的tokenization更可能造成不理想的效果
例如:
后面>后面(O)
皇后面对质问>皇后面对质问(X)
结论是,不能随便拿份对照表来匹配,很危险
如果书写中文有人造符号事先切割成“皇后 面对 质问”
那用简转繁工具可以用最简单的对照表、依匹配原则先长后短的方式处理
所以简体版的“皇后”优先配对到,对应成正体版的“皇后”
(当然如果pattern长度一致时该先匹配谁又是另一个问题)
整体来说,书写英文的人造符号比中文多,所以不只简繁互换,
在很多事情上,书写英文要处理起来相对问题比较少,
例如英文句首必然是大写,但中文没有大写,
句首必为大写,可以是一个很好用的规则,
例如一篇文章中,.?!"'等符号,后面接的1或2个空格后,理应出现大写(当然有例外)
书写中文当然也有人造符号,标点符号就是一个,
早期中文书籍是没有标点符号的,至少没有统一的标点符号
反过来说,书写英文多了空格,在电脑处理上比书写中文方便许多,
但也是有人主张应该反璞归真,
取消书写体中的人造符号,例如空格及标点符号,让书写更接近口语,
也就是让“文”更接近“语”,不过幸好这种言论太边缘了没人理
但由于书写中文在第一时间使用的人造符号比较少,后续要弥补已经很难,
除非用AI处理tokenization有极高准确率,
然后文章要先经过AI的tokenization后再去简繁转换,
不然后后不符、面面不分不可能解决