Re: [问卦] 繁简转换程式为何面面、后后不分？ liquidbox PTT批踢踢实业坊

Re: [问卦] 繁简转换程式为何面面、后后不分？

楼主: liquidbox (æ¨¹æžæ“ºæ“º) 2023-10-09 20:45:32

※ 引述《reppoc (稍会)》之铭言：
: 我知道是因为繁体的后=简体的后字
: 繁体的面=简体的面字，
: 简体转繁体时，
: 明明只要把所有有关字词取代成正确的就好，
: 也没多少个特例，
: 繁简转换程式就是做不到，
: 常常看YT影片字幕都会看到面面不分、
: 后后不分，强迫症发作实在让人很不舒服。
: 为什么都没有要改？
: 卦？
因为书写的中文不像书写的英文，有用空格分开成一个个的token，
书时使用的人造符号比较少，以致后面要用电脑处理时困难较大，
具体来说，就是中文的tokenization会比英文的tokenization更可能造成不理想的效果
例如：
后面>后面(O)
皇后面对质问>皇后面对质问(X)
结论是，不能随便拿份对照表来匹配，很危险
如果书写中文有人造符号事先切割成“皇后面对质问”
那用简转繁工具可以用最简单的对照表、依匹配原则先长后短的方式处理
所以简体版的“皇后”优先配对到，对应成正体版的“皇后”
（当然如果pattern长度一致时该先匹配谁又是另一个问题）
整体来说，书写英文的人造符号比中文多，所以不只简繁互换，
在很多事情上，书写英文要处理起来相对问题比较少，
例如英文句首必然是大写，但中文没有大写，
句首必为大写，可以是一个很好用的规则，
例如一篇文章中，.?!"'等符号，后面接的1或2个空格后，理应出现大写（当然有例外）
书写中文当然也有人造符号，标点符号就是一个，
早期中文书籍是没有标点符号的，至少没有统一的标点符号
反过来说，书写英文多了空格，在电脑处理上比书写中文方便许多，
但也是有人主张应该反璞归真，
取消书写体中的人造符号，例如空格及标点符号，让书写更接近口语，
也就是让“文”更接近“语”，不过幸好这种言论太边缘了没人理
但由于书写中文在第一时间使用的人造符号比较少，后续要弥补已经很难，
除非用AI处理tokenization有极高准确率，
然后文章要先经过AI的tokenization后再去简繁转换，
不然后后不符、面面不分不可能解决

继续阅读

[问卦] 七年级流行的DADA怎么消失了ntupeap [问卦] 为何这次美国没先撤侨啊？micky83802 [问卦] 你各位目前看过比超派更贵的鸡排吗???pprino [问卦] 火箭是怎么判断上下的？QQBB [新闻] 国内“谣言非常严重”　基层医师：有幼教keel90135 [问卦] 有人黑咖啡加牛奶吗？adsl15888 [问卦] 超派的超哥他本业是什么？black1x2y3z [问卦] 以色列有400～500颗核弹没人在乎吗？palindromes Re: [问卦] 连以色列铁穹防空系统被打穿台湾怎办?Uber [问卦] 我是不是准备装假牙了？zxcv7892341