用多种语言学习带来的惊喜

同样的事物在不同人的大脑中,是不一样的概念;同样的术语,在不同人的大脑中是不一样的理解1

这个观察在多语言学习者这里,可以转化成:有些人是用某种语言来理解知识,但多语言学习者,可能是在好几种语言的基础上来理解知识。这样的基础,或许能带来意外的惊喜,那就是用一种语言难以理解的知识,在另外一种语言中竟然可以轻松很多。

比如,《异类》这本书解释中国人为什么数学成绩好(至少在基础教育阶段),可能是因为中文语言对于数字和数学符号的支持非常友好2,1 读作 yi,2 读作 er,只有一个音节,而且发音很短。但英语中 1 是 one,2 是 two,虽然也只有一个音节,但是发音上会复杂一些,从他们的音标上(/wʌn/,/tuː/)可以看出,有发音长短的问题需要考虑。而中文的”百“和英文的 hundred 在发音难度上的差别就更大了。

对于尝试过使用英语来表达数字的中国人来说,很多人应该会觉得那很拗口,甚至一顺嘴,就把数字用中文读出来,而其他部分继续用英文读,来了个”中西合璧“,比如 i18n,AK-47,3M。

这并不是说中文就优越,中文也有给他的使用者带来遮蔽效应的地方。而是说,如果一个人在学习数学时(或者其中某些阶段),使用中文或至少中文的发音来对数学符号进行表达,是不是可以促进自己的学习呢?

现在,世界上的语言应该是越来越融合了,中文也有很多英文的词汇,比如沙发(sofa),英文中也有很多中文词汇,比如 Add oil(加油)。甚至,在《三体》这本书中,作者预言中文和英语基本上完全融合3。以后,利用各种语言的优势,避开某些语言的劣势,是不是也是这个趋势的一部分呢?

几个例子

如果用多语言来学习知识可以带来惊喜,那我有没有遇到过呢?

以下是几个例子。

查准率,查全率

了解过机器学习的人应该都知道这是两个评价模型的指标。他们的英文名称分别是 precision 和 recall。

对于这两个概念,英语中的 precision 和 recall 就不如中文中“查准率和查全率”这一版翻译更容易让人理解(如果人们已经事先掌握了中文的话)。且不说 precision 和 recall 有很多其他的词意会干扰用英语学习这个概念的同学,这两个单词本身也并不能反映其本身的计算方式5

但查准率和查全率,就好多了。“查”字你明白,“准”字你明白,合在一起,你可以联想查准率是在说检测为阳性的结果中,有多少是准确的。同理,查全率可以解释为所有应该查出的目标中,查全了没。

当然,市面上还有另外一版翻译:精确率和召回率。这版翻译更像是直译,而不是意译,也没那么容易让人理解。学习查准率和查全率这两个概念的同学比较幸运,有人给我们准备了比较好的意译版本,但并不是学习所有概念时,都有这样的好运。其他时候,从英语的角度去理解一些概念可能更方便,请看下面一个例子。

鲁棒性

这是软件设计领域的一个概念,英文叫 robustness,意思是说),如果一个程序能处理各种类型的输入(而不是出现异常),或者返回值稳定(不能面对同样的输入,输出的差异很大),那么就可以说这个这个程序具有鲁棒性。

如果你知道了这个概念的意思,你可能会觉得把它叫做健壮性、稳定性比较好,虽然也确实有人这么翻译,但是市面上用“鲁棒性”的情况应该还是更多的6,新手通过“鲁棒性”这个称呼接触此概念的几率更大些。

“鲁棒性”这个翻译,有可能是揉合了音译和意译的产物,最初的翻译者可能对这个新词的创造感到很满意。但“大棒子”的形象确实让我们这些后来的学习者感到疑惑,猜不透其中的深意。

但,如果从英语的角度来学习这个概念,就可以绕过这个翻译的干扰。robustness 的词根是 robust,这在英语中本来就有健壮的意思(多年前,你喝的“乐百氏”英文就是 robust)。如果说一个程序在各种情况下都很少出错是健壮,大家应该更容易理解这个概念吧。

后话

以上的例子,更多的是因为翻译的原因,导致了英语或汉语学习者面临不同的理解难度。但除此之外,英语和汉语作为两种不同的文字(拼音文字和象形文字),他们还有很多底层的区别,甚至可能影响人们的思维,感兴趣的同学可以研究一下。

1. 我是从《把时间当作朋友》中读到这个发现的。
2. 而不是因为中国人聪明,全世界的人应该是同等的生理结构,只不过是习得的概念多少的问题,影响了不同文化的人智力的使用方向吧
3. 在主人公罗辑从冬眠中醒来之后探索未来世界的片段中,你会发现中英文融合的相关描述
5. 也正是他们的计算方式,定义了这两个词在机器学习中的概念
6. 因为我在几场计算机相关的讲座中,听到这个概念的时候,那些教授都用的鲁棒性这个称呼,如果把这看作一次抽样调查的话(虽然样本只有不到 5 个教授,还有待进一步观察),那反映出的总体情况就是“鲁棒性”这个称呼更有市场。