汪锋【著】【中国】【现当代】
————————————————————
汪锋,北京大学中文系语言学教授。1994年—2001年就读于北京大学中文系,获本科、硕士学位,2001年—2004年就读于香港城市大学,师从王士元教授,获博士学位。著有《汉藏语言比较的方法与实践》《语言接触与语言比较》等。曾获第五届、第七届高等学校科学研究优秀成果奖(人文社会科学)二等奖、第十五届北京大学王力语言学奖二等奖、北京市第十届哲学社会科学优秀成果奖二等奖、李方桂语言学论著奖特优奖。现任北京大学中国语言学研究中心副主任、Journal of Chinese Linguistics副主编、Linguistics of the Tibeto-Burman Area编委。
张原【著】【中国】【现当代】
————————————————————
张原,杜克大学博士,北京大学数学科学学院助理教授,研究员。在Electronic Journal of Probability、The Annals of Applied Probability、Latin American Journal of Probability and Mathematical Statistics、Annals of Mathematical Sciences and Applications等期刊发表学术论文多篇。
序一
树图、浪图和语言演化
王士元 香港理工大学
世界上的语言有几千种,该用什么标准来分类呢?在达尔文 a 的强力影响下,19 世纪的施莱歇尔 (A. Schleicher) 是第一个清楚回答这个问题的人,他认为应该基于比较法用历史标准来分类。他的答案可以用他所画的第一张印欧语系树图来呈现,因此这个理论就被称为谱系树理论 (Stammbaumtheorie, Tree Theory)。然而,他的学生施密特 (J. Schmidt) 注意到,我们不应忽略地理层面上的语言接触 b :空间上越接近的人群,他们的语言间就越有可能共享更多特征,就像波浪上相邻的涟漪彼此影响,这就是波浪理论 (Wellentheorie, Wave Theory)。这两种论点之间的对立,从布龙菲尔德 (L. Bloom?eld) 经典著作 c 的第 18、19 章里可见一斑,这两章的标题分别是“比较法”和“方言地理学”,但他并没有详尽讨论这两种观点如何妥协。
如果要说谱系树理论在上世纪的历史语言学界独领风骚,可是一点也不为过。尽管如此,仍有些值得注意的例外,论及了上述两种观点的矛盾,按时间顺序来看,这些研究包括 :地理因素对密克罗尼西亚词汇影响的早
a Schleicher, August. 1863/1983. Die Darwinische Theorie und die Slprachwissenschaft. Linguistics and Evolutionary Theory, ed. by K. Koerner, 13-69. Amsterdam/Philadelphia: John Benjamins Publishing Company, 姚小平译 . 2008. 达尔文理论与语言学 .《方言》. 373-83.
b Schmidt, Johannes. 1872. Die Verwandtschaftsverh?ltnisse der indogermanischen Sprachen. Weimar.
c Bloom?eld, Leonard. 1933. Language. Henry Holt.
2 基于严格语音对应的苗瑶语历史比较研究
期研究 a、探索南岛人定居台湾的调查 b、客家方言的分析 c、汉语和侗台语间语言接触的整合讨论d、以纵向传递及横向传递论述这两种观点的理论探讨 e、汉语和若干藏缅语的接触的概述 f 等。
在此姑且不深入探究这些文献,但我们由此学到的重要一课是 :(1)任何语言特征都能经由接触而共享,即使其年代久远不易被察觉 ;(2) 树图本身就是容易误导的理想化呈现,太过专注于纵向传递而忽略了横向传递 ;(3) 由于语言是在不同时间、不同地点多元涌现的,几千年来语言间的诸多接触,导致所有现代语言都有严重的混合现象 g。
目前有越来越多证据显示,早在两万多年前 h,我们的老祖先就曾与其他古人类共同孕育过下一代,包括丹尼索瓦人、尼安德特人,因此我们体内 DNA 的混合情形,似乎和我们所说的语言一样广泛。当我们说某个人说某个语言时,那个人的基因组合全貌,可以用百分比一一算出其源头。同理,那个人所说的语言的全貌,也应该可以用语言特征的百分比来标示其源头。但这样的完整描述即使哪一天真能实现,也可能过于纷杂而不切
a Cavalli-Sforza, L. L. & W. S-Y. Wang. 1986. Spatial distance and lexical replacement. Language 62.38-55. Reprinted in Wang, W. S-Y. 1991. Explorations in Language. 143-61. Chinese translation: 2000. 熊宁宁译 . 空间距离与词汇替换 .《语言的探索 :王士元语言学论文选译》. 24-48.
b Wang, W. S.-Y. (1989). The migrations of the Chinese people and the settlement of Taiwan. Anthropological Studies of the Taiwan Area: Accomplishments and Prospects. Department of Anthropology, National Taiwan University. 15-36. 我在这篇论文里探索了一种增加旁支的方法,以减少传统树图所遗下的残留。
c Hashimoto, Mantaro J. 1992. Hakka in Wellentheorie perspective. Journal of Chinese Linguistics 20.1-48.
d 陈保亚 . 1996.《论语言接触与语言联盟 :汉越(侗台)语源关系的解释》. 北京 : 语文出版社 .
e Wang, W.S-Y. & J.W. Minett. 2005. Vertical and horizontal transmission in language evolution. Transactions of the Philological Society 103.2.121-46.
f Wang, Feng. 2015. Language contact between Tibeto-Burman languages and Chinese. The Oxford Handbook of Chinese Linguistics, ed. by W.S.-Y. Wang & C. Sun, 248-59. Oxford University Press.
g Freedman, D. A. and W. S.-Y. Wang. 1996. Language polygenesis: a probabilistic model. Anthropological Science 104.2.131-138. 石锋译 . 2000. 语言的多源性 :一个概率论模型 .《语言的探索 :王士元语言学论文选译》. 273-80.
h Callaway, E. 2016. Evidence mounts for interbreeding bonanza in ancient human species.
Nature News.
序一 3
合实际的需要。
赵元任在研究汉语的歧义结构时曾说过 a :“在语言学方面,就像在科学方面一样,我们总试图化繁为简,但事情永远不会像我们所想的那么简单。”对此,我们还可以再加上爱因斯坦说过的一句话 :“让每件事都尽可能地越简单越好,但不要过于简单。”
因此,我们所面临的关键问题是,在对人群和语言的最完善描述,以及语言学家最熟悉的简单树图之间,究竟要把那条恰到好处的简单的分界线画在哪里。
无疑的,这个关键问题的答案,最终一定来自多年沉浸在语言调查中的学者。汪锋教授自 2006 年出版了他的博士论文后 b,就一直在从空间分布和时间深度的视角,深入考察藏缅语族中的白语和彝语 c。他现在与张原教授合作,把注意力延伸至苗瑶语,可谓学术界一大幸事。希望借由两位教授和同事们所研发的方法,他们最终能解答关于中国境内的语言的一个古老却重要的争议。
李方桂 (1902-87) 教授 1937 年的精简报道,是最早描绘中国众多语言复杂景观的尝试,他因此被誉为“非汉语语言学之父”。1973 年,他曾受邀在《中国语言学报》创刊号上,再次阐述和更新他的研究发现。用当时流行的术语来说,李先生把印中语系 d 分为四支 :[1] 汉语,[2] 侗台语,[3]苗瑶语e,[4] 藏缅语。有着谦谦君子风范的大学者李先生,用以下这段话概括了他的分类f “:对那些没有文字且只有现存形式为人所知的语言来说,我们很难建立起其关系。中国的许多语言不仅欠缺文字记录,我们对其所知也是相当支离破碎的。因此这样的分类只是暂时性的。”
在李先生所提到的四个分支中,除了汉语以外,材料最丰富的莫过于藏缅语,缅文和藏文都很早就有文字记录传世,学者至今也发现了诸多同
a Chao, Y. R. 1976. Aspects of Chinese Sociolinguistics. Stanford University Press, p.305.
b Wang, F. 2006. Comparison of Languages in Contact: the Distillation Method and the Case of Bai. Nangang: Institute of Linguistics, Academia Sinica.
c 汪锋 . 2011. 语音对应的两种放宽模式及其后果 —— 以彝白比较为例《. 语言学论丛》 44:1-39. 北京 :商务印书馆 . 汪锋 . 2012.《语言接触与语言比较 —— 以白语为例》.北京 :商务印书馆 . 汪锋 . 2013.《汉藏语言比较的方法与实践 —— 以汉、白、彝为例》. 北京 :北京大学出版社 .
d “印中语系”这个说法目前已被“汉藏语系”所取代。
e 英文文献中,苗瑶语除了用 Miao-Yao,也常作 Hmong-Mien。
f Li, F.-k. 1973. Languages and dialects of China 中国的语言和方言 . Journal of Chinese Linguistics 1.1.1-13.
4 基于严格语音对应的苗瑶语历史比较研究
源词,如龚煌城 (1934-2010) 教授所列出的几百个词表 a,因此汉语和藏缅语的亲属关系一直未受强烈质疑。至于侗台语,虽然经常有人挑战这种看法,但李先生在 1976 年曾为汉语和台语的关系辩护 b。丁邦新教授去年曾以精辟的阐释,证实了这层关系 c。
不过,苗瑶语的争议一直持续到今日。李先生 (1973) 及后来的学者所观察到的相似性,究竟来自有着共同源头的纵向传递,还是来自横向传递的语言接触?如果苗瑶语在谱系上与汉语和藏缅语有关,那么这三角关系之间的内部结构为何?例如,有人主张与苗瑶语亲缘关系最近的是台语,而非汉语或藏缅语d。无论最后结果如何,在我看来这似乎是个多边 (multi- lateral) 关系,这种多边视野是由格林伯格 (Joseph Greenberg, 1915-2001) 所倡导的,很值得我们深究下去 e,他当时就是以这套大胆前瞻的方法,为非洲错综复杂的语言做了成功的分类。简而言之,在为语言归类时,若每次只是一对对语言两两比较,很难宏观地看出语言间层层交织的关系,尤其是那些具有亲缘关系却彼此分布距离遥远的语言;但如果同时检视多个语言,往往能够因自上而下的统整策略而有崭新的发现。
既然汪、张两位教授对苗瑶语的历史语音学,做了如此巨细靡遗的语音对应比较工作,我希望他们接着会更上一层楼,把目光再延伸至汉藏语,毕竟,在充分掌握了汉语、藏缅语和苗瑶语的历史脉络后,才能进一步厘清汉藏语千丝万缕的内部关系。期盼在解决汉藏语之间纵向和横向传递的长期谜团时,这样的历史比较研究,也有助于我们理解语言的群体演化发展,正如两位作者在摘要中所说 :“将概率辅助、计算机程序自动处理数据和历史比较的任务结合起来,汉藏语言、中国语言、乃至世界语言的谱系或许在不远的将来能精细而准确的绘制出来。”若真有那么一天,也算是中国学者把格林伯格的多边关系发扬光大,对国际语言学界做出的卓越贡献。
a Gong, H.-C. 1995. The system of finals in Proto-Sino-Tibetan. The Ancestry of the Chinese Language, ed. by W. S.-Y. Wang. Journal of Chinese Linguistics Monograph 8, 41-92.
b Li, F.-k. 1976. Sino-Tai. Computational Analyses of Asian and African Lauguages 3.39- 48.
c 丁邦新 . 2020.《汉台语同源论》. 商务印书馆 .
d Kosaka, Ryuichi. 2002. On the af?liation of Miao-Yao and Kadai: Can we posit the
Miao-Dai family. Mon-Khmer Studies 32.71-100.
e Greenberg, J. H. 2001. The methods and purposes of linguistic genetic classification.
Language and Linguistics 2.111-135.
序二
聚敛一致对应的概率基础
陈保亚 北京大学中国语言学研究中心 / 中文系
聚敛一致对应
我们曾经把 Swadesh 的 100 核心词作为高阶核心词(第 100 词),再从他的 200 核心词中减去 100 核心词,并做适当调整,形成低阶核心词(第
200 词)。我们认为,如果两个语言同一对应层次的高阶核心词比例高于低阶核心词比例,形成聚敛分布,两个语言就有同源关系,如果高阶核心词比例低于低阶核心词比例,形成发散分布,两个语言就有深度的接触,在接触之前是否有同源关系,还无法判定(陈保亚 1996,2015)。
但是,我们并不能仅仅根据两阶核心词(200 词)来建立语音对应,因为从概率统计上看,两阶核心词用来建立语音对应在样本上是远远不够的,尤其是对年代分化久远的语言尤其不够。建立语音对应需要对两个语言的全部词项进行核查,然后找出不同对应层的语素集合。如果其中某个对应层的语素集包含了核心词,并且核心词形成聚敛分布,则两个语言同源,该语素集就是核心一致对应层语素集,是重构原始语言的基础。
由此看来,建立语音对应是有阶分析的必要条件。建立语音对应首先需要建立完全对应,即语素的语音形式(语素音形)在各个成分中都能对应起来,这样才能最大可能的排除偶然对应,确定两个语言间的关系语素。比如下面的实例,如果只看语素音形的第一个辅音,似乎可以在汉语和英语之间建立 p 和 b 的对应 :
语素 普通话 美国英语
本 book p?n214 b?k
背 back pei51 b?k
被 by pei51 ba?
6 基于严格语音对应的苗瑶语历史比较研究
(续表)
语素 普通话 美国英语
把 bundle pa214 b?ndl
博客blog po35 bl?ɡ
但是,上述语素音形的其他部分难以建立对应,于是我们基本可以断定这里 p 和 b 的对应是偶然对应。
完全对应也是判定对应层次的必要条件,比如在汉语和德宏傣语之间有声母 s 和 s 的对应 :
? 汉语 傣语
? san55 sa:m35 三
? san55 sa:n33 三(tsa:i51sa:n55,三哥)
如果我们建立了完全对应,再考虑韵母和声调,可以确定这两个 s 对应不在一个时间层次。也正是在声韵调都满足完全对应的基础上,可以看出汉语阴平字在台语(壮傣语)中至少有两种一致对应 :
[ 汉台一致对应 1]