嗨,安安大家好
正巧这系列都是我专业的内容,我来解释一下为什么会有"远古-机翻"的感觉
现在不想碰工作的东西了,就出来教学一下顺便看能否把这系列close掉
如果有相关领域的人想找我,非常欢迎,我很孤单
首先现代中文和现代英文都是SVO语言,已经演化成"分析性语言"了
就是主词+动词+受词,这样的文法结构
(以前的中文和英文并不是,尤其中文本来就不是分析性语言,是近代才慢慢变化的
所以很多文法的概念,都是从拉丁语等严谨的分析性语言,难以直接套用上去
比如时态的变化、名词单复数、主格、受格人称变化等等
英文(日耳曼)的文法分析也是只取用一部分的拉丁语文法来作,
同样的罗曼语系或斯拉夫也是)
d大的翻译是典型的1 to 1 mapping,也就是把出现机率最高的各词组直接套用上去
这是典型的古代机器翻译
说精准,也不能说是精准,只能说是一个萝卜一个坑照着塞
但这就不能翻译kick a bucket或ejaculated half a dozen times之类的用语
(前者是俗语,死掉-苏州卖鸭蛋的意思,
后者不是射了6次/半打这样精确的数字,而只是讲射了好几次
典故来源是 佛洛依德的某一篇论文,提到某个患者半夜梦遗了
但大家都知道梦遗或强制射也不可能一夜六次郎
所以这很明显是一种稍微夸大的"好几次"
不过研究所时某个女同学还是很认真的翻译上台报告了,"该患者当晚梦遗射精了六次"
所有人应该都知道.....这是明显的谬误,不是佛洛伊德的本意)
以上这几个情况,都证明了,语言的意思并不是只有"文法"能够决定
语气、情境、上下文、俚语、隐喻、种种不特殊的情况,
都能让意思不是文法上看起来的那样
但以前的机器就做不到这点,他只会照翻
好,回到分析性语言。今天中文和英文是SVO结构
所以你说照着把词义一个不漏的翻译上去是最精准的
那碰到古英文(莎翁之前的)或现代日文呢? 他们的语法结构是SOV (主词+受词+动词+否定)
比方说 我不吃橘子,在日文 就是 "我 橘子 吃 不"
那你今天这样照着分析性语言的文法结构翻译,是不是很像古代的机器翻译呢?
这只是因为刚好都是SVO的结构,所以照着塞这种作法好像短句还行
碰到OVS(像是Yoda大师的语言、克林贡语、或是地球上少数OVS的语言)
你今天的翻译就变成
"橘子 不 吃 我"了
显然不是那句话原本的意思
或是贝武夫的古英文(维京人那里来的参杂古德文)
一堆 SOV 句法翻译到今天的语言,用文言文格式都还不一定能模仿三分
英文圣经里面有King James version的Bible
也有其他的"钦点版本"
今天他会成为正统Orthodox,就是因为大众的接受度高,以及历史政治因素
比如英国国教派的出现原因等,只是因为国王想再娶但不想被罗马教皇给拒绝证婚
(我们不谈各教派之间的差异或各宗教本质上的差异)
AdGuard今天真的已经钦点了一个繁体中文的版本吗?
那为什么大众的接受度却那么低呢?
要不要想想看,这是远在地球另一端的人不知道这边中文大众使用者的心声
还是有其他因素存在
比如除了d大以外的人,大家的中文都有问题?
没有人否认d大付出的心血和精力,那种经历就像是K和Joi之间的感情
可以参考拙作"真伪,或者真伪根本无所谓"
http://fall-cicada.blogspot.com/2019/03/blog-post_27.html
Tech writing作的越久,会越发现"真"已经不是第一重要的了
虽然这点很可悲,tech writer和其他creative writer的差异不就是在于
"精确且实用正确传达使用方式和开发文件的纪录"
从事越久,会发现自己所追查和追求的真,往往只是被拿来掩盖"真"
毕竟资讯是情报,情报是资产,给user和internal developer, 股东、大小主管的资讯
不会是一样的
每个单位拿走资讯以后,往往是刻意添加假的和错误的东西进去,以保护自己存在价值
唯一能抚慰自己的,只有"至少正在看文件的人,不管是股东或user, RD
都能拿到它们正好需要的正确资讯"
而努力撰写破译组装知识库的这个过程对我而言就是一场完整的成长和旅行
我只能祈求他们不是拿这个来压榨、欺瞒、利用或斗争他人,
这是tech writer最基本的良心和职业道德
绝不泄密,但也不误导需要资讯的人
第二个主题,我要说的是thematical roles 和 nomimal subject的差别
一个是一段文字中的主题,另一个是文法名义上的主词
前者可以透过好几个完整中长句去传承去解释完毕
后者则是有严格的一个句只有一个主词格规定
对台湾人而言,英文文法的重要性,大概是国中时期建立起来,高中复杂化
大学就忘光光
一直到研究所阶段,所有人的英文程度还是停留在国中八大词类的认识上
只有英语教学相关的人,或是论文读写很多的人,会发现严谨的英文不是这样写
也就是"主词"虽然承载了句子文法名义上的主角,但往往句子的重点都是放在后面
用虚主词it或其他方式把很长的重点放在类似受词的位置了
这也导致了文法、文义重点并不重叠的情况。
写论文当然符合文法,但每一次的新句要怎么把重点和推论、得证用合乎逻辑的方式
像是传球一样传给下一个虚主词(以及下一个thematical roles)
这才是写论文难的一个小地方
毕竟句和句推论或论述如果有断层或矛盾,这文章就是烂和假。
这点很类似数学证明逻辑,也是法律为什么这么难的原因
除此之外,还有形式语法学派 (Construction grammar)提出的不同分析方式
以及更近代的Neoro-linguistic (神经语法学派)
可以让你跳脱传统拉丁语法以来的见解,语言是人大脑的产物
他不是死硬被钉在教科书里面的八大词类
甚至还有更激进的HPSG学派,一直试着语言证明一切的一切(文法结构上的核心)
都是存在于类似"the"这样的指定词里面,而不是传统认为的动词
这个学派的研究隐隐导出的结论是,文法和文意根本是两个不搭嘎的东西,是独立存在的
那照这样下去研究文法到穷尽会得到什么呢?
岂不是一切成空
比较像是虚数的数学领域,而不是一般大众可以使用的实数数学吧?
也许要一百年以后的科技或其他意想不到的领域才会运用到这块成果。
他们确实提出了一些实证,有兴趣可以查"政大 何万顺 教授"
希望老师不会记得我,毕竟我只是一个曾经暂歇政大的过客
不想给任何老师添麻烦或丢脸了
给大家稍微看一下自然语言分析(NLP)是怎么作的
https://universaldependencies.org/ru/dep/nsubj.html
https://universaldependencies.org/zh/dep/nsubj.html
电脑眼中的句子和我们看到的很不同,所以还是需要很多很死的规则去作权重
但权重出来以后的结果看起来却像是人类的思考结果
其实路思考径完全不同
最常见的是HMM (Hidden Markov Model)
按照前面说的,如果分析性语言用POS(part of speech 词性)去切词组
和相依分析(dependency)
每一个POS都用HMM去抓对照前后和全句最有可能的解释,而不是按照整本字典内出现机率
这样看起来会比较像样,也就是近代的机翻
不是用设定好的一个词一个对硬塞进去
另外,翻译最重要的是除去干扰,也就是任何不能表达theme的东西都移除
有兴趣的欢迎参与Spacy专案
https://spacy.io/
是一个自然语言分析的python套件,一个新西兰人到德国作的适用各种语言分析的工具
我本来啥程式语言都不会,直到机缘巧合我决定投入这块努力(业余兴趣)
希望几年后的研究成果能验证我的假说和直觉
我只是一个曾经念过英语教学所和英美文学外文所的可怜人
都没拿到硕士
但教过不少学生(国小国中高中、阅读障碍、盲生、过动都教过...)
我网络速度太慢了 还有其他相关的主题,像是强迫症(OCD)或联觉(Synesthesia),
Dyslexia(阅读困难), Haptic Immersion(触觉沉浸)
如果有人有兴趣想听,以后再说吧
我是自称"联觉者"的前英文老师,而这很可能跟我青春期的OCD有关系而随之发展出来
这已经不是Adguard相关的,只是NLP或禅、Universal Grammar(Chomsky的学说)
对教授而言,我只是一个没有利用价值的人,毕竟我追求的东西不专精也不产他的论文
我只是一直傻傻地作和付出给身边的人,没有付出给吸干你血肉的学术界
但对我和某一些特殊族群而言,我们确实是在追求真相
而这个真相或追求的过程,是对社会大众有帮助和意义的
希望d大放下我执,也释出让人参与的善意。
毕竟我没有办法再拿出一个小时讨论了。
但人都希望自己在这个世界上不是孤独的,
自己的远大目标同时也是更大的群体的共同目标。
这时候就要拿出善意,让大家能参与、验证并指出错误所在了。