【微语传记1】亚洲的冷门语系和孤立语——语言扩张下的残留
本系列旨在关注全球的冷门微语种。题图为 Glottolog 上亚欧大陆的孤立语和按语言数量倒序排列的语系。
亚欧大陆,得益于相对丰富的(可驯化的)动植物种类和整体呈横向的轮廓,造就了一批又一批生产力水平发达的部族,他们的扩张同样也带来了语言的扩张。事实上,如果按所谓“旧大陆”的划分方式,可以说(至少是大范围的)语言扩张基本就是“旧大陆”的专属,且多数都发生在亚欧大陆上(非洲仅有过班图语支扩张这一次)。
语言(学)爱好者可能惊讶于新几内亚岛、澳洲北部 [1] 、西非到中非、北美西海岸、南美安第斯山脉+亚马孙平原边缘 [2] 等等这些语系极其复杂的地区,但事实上这些才是(人口相对稠密的地区) 正常 的语言分布情况,而亚欧大陆这种仅仅由十几个大语系所支配的局面,反而是“不太正常”的。——不妨做个简单粗暴的计算,如果按 每1000年一种语言会变成两种 来计算,智人大概在 70000年前 来到亚洲,那结果将会是 2^{70} 这样一个可怕的数值;然而很明显,事实并非如此。在发生语言扩张之前,亚欧大陆也可能经历过类似于上述这些地区的语言情况,只是有许许多多的语系在历史的长河中消失了,以至于谈到亚洲的语系时( 欧洲高度同质化,可以不谈了 ),年代似乎都不需要追溯到更新世(以11700年前为界),也很难想到亚洲还有什么不起眼的小语系或孤立语。这些,就是本文将会介绍的内容。
进入正文,首先来确定一下本文所涉及的范围。下图是维基上的一张全球语系分布图,这里大致截取了亚洲部分:
按从西往东、从北往南依次涉及的语系有:突厥、亚非、印欧、南高加索、乌拉尔、满-通古斯、达罗毗荼、汉藏、蒙古、仡台、南岛、南亚、朝鲜、日本-琉球、楚科奇-堪察加。
此外没有列出,但相对还有一定知名度的语系有:西北高加索、东北高加索、苗瑶、爱斯基摩-阿留申。另外还有一种相对有名的孤立语——阿伊努语。
接下来,才是本文的重头戏:亚洲还剩什么语系和孤立语? 语系包括:叶尼塞 [3] 、大安达曼、恩格、尤卡吉尔 [4] 。孤立语包括:布鲁沙斯基、库孙达、尼哈利、尼夫赫。(另外,鲁苏语、马尼代语、乌米莱-杜马盖特语、恩加诺语、尚彭语等有孤立语的可能,森提奈语因为了解太少而未归类) 已灭绝语言里还有胡里亚-乌拉尔图语系,以及苏美尔语、埃兰语等孤立语;另外,现在在马来群岛东部的帝汶-阿洛-潘塔尔诸岛、哈马黑拉岛等还有两个“巴布亚语系”,本文这里暂不涉及。
主要内容如上,还包括一些零星的混合语( 即 creole,但本文将不采用“克里奥尔语”这一名称 )或融合语(mixed language),以及三个高加索语系、楚科奇-堪察加、爱斯基摩-阿留申等也略冷门的语种/语系会最后补充说明一下。
长文预警,正式开始。
一.语系
1.叶尼塞语系/“德内-叶尼塞语门”
可以看这里。简言之,“叶尼塞”历史上是个语系,指分布在俄罗斯叶尼塞河流域的几种语言(可能和真正的“匈奴语”有联系),但现在仅剩凯特语(Ket)一种濒危语言,可以认为共时层面是个孤立语。然而有证据表明,叶尼塞语系和北美的纳-德内语系有联系,所以也可以用“德内-叶尼塞语门”这样一个更高层的概念。
这里补充一个北极视角的语言分布图:
2.“安达曼诸语”
可以看这里。简言之,安达曼诸语连同安达曼群岛本身在各种地图上基本都会失踪,存在感极低。然而就在这么一小片地方,分化出了至少两个语系,绝大多数属于大安达曼语系,南方少部分属于恩格语系(Öñgan,来自 Öñge /әŋge/);同时西南方向还有个森提奈岛,但因为严重排斥外来者,导致语言调查工作很难进展,也就无法确定其谱系。
3.尤卡吉尔语系
17世纪时还分布在俄罗斯楚科奇半岛上一块较大的区域(下图虚线),20世纪时已经缩小到了科雷马河流域(下图实心),目前使用者只有几十人。因为本身就地处楚科奇半岛上,往往画地图时就直接被当成了楚科奇-堪察加语系的一部分,或者并入西边的满通语系……
以及,本身谱系也有争议,可能和乌拉尔语系或爱斯基摩-阿留申语系有关。
二.孤立语
1.“南亚原住民的残留”
这里的“南亚”用的是 地缘政治 概念,不是分布于中南半岛(即“东南亚”)的南亚语系。这里包括布鲁沙斯基(ﺑﺮﻭﺷﺴﻜﯽ / Burū́šaskī,在巴控克什米尔北部)、库孙达(Kusunda,,在尼泊尔中部和西部)、尼哈利(Nihali,在印度西部)三种语言。这三种孤立语的存在,说明了在印欧、达罗毗荼 [5] 、汉藏、南亚 [6] 语系等扩张到现在的范围之前,南亚地区可能还充斥着许多零散的小型语系,其中少部分仍然存活至今。
I.布鲁沙斯基语
布鲁沙斯基语的研究相对比较完善,11万的母语者在本文所涉及的语言内算是很庞大的了,而且经常会(和巴斯克语一道)被塞进各种奇怪的超语系假说中,所以可能没有那么冷门。
布鲁沙斯基语没有固定的正字法,一般会采用乌尔都字母,意味着也在绝大多数情况下用波斯体(Nastaʿlīq)阿字而非誊抄体(Nasḫ),但知乎不支持前者的显示 [7] 。这是巴基斯坦境内一些语言的书面体系的共性,但(严格而言)布鲁沙斯基语有一个奇特到有点任性的正字法特色——用 乌尔都数字 加在字母上,从而弥补阿拉伯系字母元音不够的缺陷:
II.库孙达语
库孙达语分布在尼泊尔中部和西部,使用者只有几十人。下图中灰色的三个县只是表示在当地还有库孙达语使用者,不是指整一个县都说库孙达语:
III.尼哈利语
尼哈利语分布在印度西部马哈拉施特拉邦和中央邦的交界处上,使用人口有2000多。
周围语言情况还挺复杂的,灰色和白色的是印度语,蓝色的是达罗毗荼语,而显眼的橙色是……戈尔古语(Korku/कोरकू),是分布最靠西的 南亚语 。总之,尼哈利语受周围马拉提语、戈尔古语以及一些达罗毗荼语的影响很强,但核心词还是保留了自己独特的一套。
2.尼夫赫语(Нивх)
尼夫赫语分布在俄罗斯鞑靼海峡两侧,可能是因为历史上尼夫赫人和中国这边有一些往来(当然在《北京条约》之前那边还是中国的领土),或是阿依努语的知名度带动了边上另一种孤立语,尼夫赫语可能相对有名一点点。因为方言差异较大,到底是孤立语还是“尼夫赫语系”取决于怎么定义。
尼夫赫语存在于有点类似凯尔特语族里的辅音交替现象。在尼夫赫语里,若一个短语内前词以爆音或/j, w/结尾,则后词词首辅音要按表格中规律变换,即清送爆音→清擦音、清普爆音→浊擦音。
这和凯尔特语族有点像,我在这里介绍过爱尔兰语的辅音交替:
此外,尼夫赫语在形态句法上还有相对少见的将来时-非将来时对立。
三.谱系有争议
1.鲁苏语(Hruso)
鲁苏语位于我国藏南地区西南,是否为汉藏语系存疑。在 Muturzikin 上就归入了汉藏语系藏缅语族下的“鲁苏语支”( 当然原图上边界自然有问题,这里把中印边界去掉了,只留下边上的不丹边界以供参 考):
但 Glottolog 上引用 Shafer(1947) 的观点,认为“鲁苏语支”只是一个由语言接触导致的伪概念,和同属该语支的达迈语(Miji / Dhammai) 明显 不是真正的亲属语言。当然在 Matisoff(2015) 里也给出了所谓“东北印度诸语”的分法,但只是个基于地理位置的分类垃圾桶,说明那一块语言的内部关系确实还很不明朗……
2.“菲律宾尼格利陀语”
包含马尼代语(Manide)和乌米莱-杜马盖特语(Umiray Dumaget),由 所谓的 “尼格利陀人”使用。
“尼格利陀”negrito 来自西语的 negro 加上指小后缀 -ito 后构成,也有译作“矮黑人”,指的是分布在安达曼群岛和东南亚少数“肤色较黑、身高较矮”的民族,被西班牙人当作是和非洲的“黑人”有关系。但事实上这只是个纯粹基于外貌的分类方式,这些民族应该是最早抵达东南亚的人群之一,长期的分化导致他们在基因上也没有那么强的关联,更别说直接源自非洲了。总之,这个称呼非常 不恰当 ,不建议多使用,这里用到只是为了辟谣。
只有安达曼群岛上的“尼格利陀人”还保留了自己的语言,其它基本都已改用周围其它民族的语言,但是有一些底层残留。菲律宾境内大致可分为两类,一类是北边吕宋岛上的“阿埃塔人”(Aeta),另一类是南边米沙鄢群岛上的“阿提人”(Ati),全部改用南岛语系马来-波利尼西亚语族下“菲律宾次语族”的语言。这里涉及的两种语言都是吕宋岛的“阿埃塔人”所说。
马尼代语(图中是 camarines norte agta)在吕宋岛南部的几种“尼格利陀语”中有最高比例的非南岛同源词,大概有30%的词是底层词汇,相比之下周围其它语言的底层词汇只有10%。乌米莱-杜马盖特语可能是菲律宾次语族下一个最外层的语支。
3.尚彭语(Shompen)
尚彭语位于尼科巴群岛南部的大尼科巴岛上(图中红圈)。尼科巴群岛也是“见缝插针哪都有”的南亚语系的分布范围之一,属于尼科巴语族:
不过,由于其中的尚彭人生活在大尼科巴生物圈保护区内,目前的了解仍然比较有限,可能属于尼科巴语族,也可能属于旁边西马来西亚境内的阿斯里语族,或是独立成为南亚语系下的一个语族,甚至 Glottolog 上认为是一种孤立语。
4.恩加诺语(Enggano)
恩加诺岛在印尼苏门答腊岛以南,和苏门答腊岛上的南岛语有很大的差异,尤其是它发生了 *t>k ,这个音变其实只在以夏威夷语为代表的 大洋语支 里的一些语言才有(大洋语支属于中东部马-波语群,恩加诺语则可能能马-波语族下的一个独立语群,关系离得很远,应该是独立发生的)。
而恩加诺人在文化上和上面所说的尼科巴人也有一些相似性,但在语言上也和尼科巴语族没有明显的联系。
四.混合语/融合语举例
混合语(creole)是协合语(pidgin,来自 @kwasglag 的译法)的 母语化 产物,而协合语来自两个或多个群体 相互语言不通 的情况下形成的(往往是 形态非常简单 )的交流方式。融合语(mixed language)来自 双语或多语社群 里频繁的 语码转换 ,未必会剧烈简化形态(但不同于语码转换的是,语码转换要求使用者能熟练掌握社群内的几种语言,而融合语一旦定型后就不需要使用者再了解其基于的语言了)——不过,理想的定义如此,但事实上往往又很难区分。
总之,以下按自东向西的顺序介绍:
1.小笠原语
是小笠原群岛上的一种基于英语并受日语影响的混合语(也可能是融合语)。最早小笠原群岛无人居住(所以美国的称呼“Bonin”可能来自「無人」ぶにん),在19世纪有了第一批移民,在混合后形成了最早的皮钦语。而后有更多日本移民进入,使得小笠原语向日语靠拢。1946~1948年美国曾短暂占领小笠原群岛,又导致小笠原语急剧偏向英语。二战后小笠原群岛回归日本,再次向日语接近,不过之后逐渐就有被标准日语取代的趋势。
2.寒溪语/宜兰混合日语
属于极少数基于日语的混合语,在日占时期的台湾宜兰形成,并融合了当地南岛语系的泰雅语。由于主要在寒溪部落使用,也可称为“寒溪语”。当然,考虑到殖民背景,寒溪语的传承已非常困难。
可参考这个视频:
3.澳门土生葡语
是一种在澳门形成的基于葡语的混合语, @Naiefjongen 已经在这个回答里有详细介绍:
4.那加语
主要在印度东北的那加兰邦使用,基于印欧语系印度语支的 阿萨姆语 ,同时融合了当地的一些藏缅语(主要是库基-钦-那加语支),作为当地的一种通用语,除了那加人以外也有许多其它民族使用。从14世纪开始,那加兰地区逐渐印度化,阿萨姆语的地位超过了原本当地主要使用的阿洪姆语(仡台语系),并在英属东印度公司建立后继续得到扶持。而目前印度对于东北六邦的语言同化程度仍然较弱,英语和印地语尚未动摇那加语的地位,属于亚洲少数相对健康的混合语。
5.维达语(Vedda)
维达人曾经居住在斯里兰卡岛上,祖先可能也是一批更早于达罗毗荼人和雅利安人来到印度次大陆的民族。
在僧伽罗人和泰米尔人依次登陆斯里兰卡岛之后,维达人社群始终保持一定规模,原本的语言应该也还存在,大致分布在岛上靠南的高地上:
之后,随着19世纪殖民者的到来,维达人数量大幅度减少,原本的语言也逐渐变为了一种 基于僧伽罗语和某种未知语言的混合语 ,目前也处于濒危状态,年轻一代更倾向于直接用僧伽罗语或泰米尔语。
“维达”(泰米尔语 வேடு vēṭu,僧伽罗语 වැද්දා væddā)这个名字和“吠陀”(梵语 वेद veda)应该关系不大,可能是泰米尔语本土词,本义指猎人: [8]
P.S. 维达语和蒙达语的名字有点像,分别是目前斯里兰卡和印度境内的“少数异类”,但后者是南亚语系下的一个语族,进入印度的时间也远远晚于维达人,彼此没什么关联。
6.查戈斯混合语
如果按区域归类,这是一种在印度洋上的、基于 法语 的混合语,和其它比如非洲的塞舌尔、毛里求斯、留尼旺、马约特之类的混合语能算作是一类。然而这块地方在地理上又属于亚洲,那它到底在哪里?
查戈斯群岛现在属于“ 英属印度洋 ”的一部分——在马尔代夫到塞舌尔之间,还有一些零星岛屿,查戈斯群岛就是其中之一。
如果和20世纪下半叶英国人的到来作对比,那么这里还是有一些原住民的(尽管可能是更早先殖民活动留下的一些混合民族),他们就是查戈斯混合语的使用者。但之后英国把此地改造成了军事基地“英属印度洋”,驱逐了当地居民,导致目前也处于濒危状态。
之后关于混合语又专门写了一期,其中下篇里补充了一些混合马来语:
五.一些补充
1.“高加索诸语”
高加索地区有三个主要的语系:西北高加索、东北高加索、南高加索语系,加上还有印欧语系的亚美尼亚语族、伊朗语支的奥塞梯语,突厥语系的阿塞拜疆语等等,语言情况非常复杂。这里的“高加索诸语”仅指这三个语系,下图中也选了只涉及三个语系的情况:
其中使用人口最多的是格鲁吉亚语,属南高加索语系,有370万人口。也正因如此,由于许多文章中不区分这三个语系,统一成所谓的“高加索语系”( 目前还缺乏足够证据支持 ),格鲁吉亚语自然而然地成为了全高加索语的代表,经典特征之 超长辅音簇 (如 გვფრცქვნი /gvpʰrt͡skʰvni/)也被视作是整体特征。
然而事实并非如此,如果真要谈这三个语系的类型学共性,其实大概只有两点:①几乎都有挤喉音,而且也传播到了诸如奥塞梯语(和亚美尼亚语某些方言)中,使之成为了仅有的带挤喉音的印欧语;②普遍具有作格性,格鲁吉亚语也是解释作格性时常被引用的语言。以下再谈几点音系上的主要差异(形态句法就超出我的能力范围了……):
- 确实高加索诸语的辅音比较突出,但「辅音音位数量多」是西北和东北的特点,尤其是西北,像已灭绝的沃博赫语(Убых,/wɨbɨx/)就是在“没有搭嘴音”的语言中有最多的音位数。东北相对比西北要少一点,但也确实很多(继沃博赫语之后,目前最多的就是阿尔奇语/Archi)。——然而,南部的辅音数量则很正常,格鲁吉亚语有28个(比英语稍微多一点),其它几种语言也就在30个左右。
- 与「辅音音位数量多」相伴的一个特点就是「元音音位数量少」,但这个也是 西北 的特点……平均就2~3个。但东北和南部就不一样了,常见的是五元音体系,有些像车臣语就比较多,大概有10个(条件变体还有更多,根据有些方法可以找出44个……直接位列欧洲语言前列了)。
- 「超长辅音簇」只是南部的特征,北边两个是数量上变态一点,辅音簇还比较正常。
- 东北还有个比较隐蔽的特征——「咽/会厌/声门部位的音位较丰富」,平均有4个,像车臣语就是/ʜ, ʢ, ʔ, h/的对立。
2.楚科奇-堪察加语系
由楚科奇语族和堪察加语族构成。楚科奇语族包括楚科奇语、科里亚克语和阿留特语(Alyutor,和下面要提到的“阿留申语”Aleut 不一样),堪察加语族只剩下高度濒危的伊滕门语(Итәнмән 是自称,按俄语 Ительмен 会变成“ 伊捷尔缅 ”,在图中圈出):
3.爱斯基摩-阿留申语系
主体分布在北美洲北部,极少数在俄罗斯最东部。语系由爱斯基摩语族(加拿大北部、格陵兰、美国阿拉斯加)和阿留申语(阿留申群岛)构成。
“爱斯基摩”传统上认为来自克里语(阿尔冈昆语族)askamiciw“吃生肉的人”,较新的观点认为来自蒙塔尼埃语(montagnais,也是一种克里语)的 ayaškimew“穿雪鞋鞋带的人”,但无论如何都带有贬义,除非是这种统称,否则不建议使用(和“柏柏尔语”也是一个性质)。该语族可分为尤皮克语支和因纽特语支。
P.S. 因纽特语支采用的书写系统属于加拿大原住民文字:
4.亚洲唯一的大西洋-刚果语
(2023.9.15 更新: 索科特拉群岛属于非洲 ,不是亚洲,也门也是一个跨亚非两洲的国家,所以本节本不应该出现,但既然写都写了那就不删了)
最后再补充一个尽管目前已灭绝、但地位非常特殊的语言——索科特拉斯瓦希里语。因为它的存在,大概在进入本世纪之前,大西洋-刚果语系还不算是一个仅限于非洲的语系 [9] 。索科特拉群岛位于亚丁湾上,属于也门。
至于主要在东非使用的斯瓦希里语为何在这里也会产生方言,则是和 阿曼帝国 曾经的疆域有关。相比于现今位于阿拉伯半岛东南部、首都为马斯喀特的阿曼苏丹国,当时阿曼帝国的疆域还包括波斯湾另一侧(今伊朗南部)、索科特拉岛、东非沿海,并且首都也一度迁往了桑给巴尔(位于今坦桑尼亚)。也正是因为这样一段阿拉伯与东非的交融时期,导致有大量的阿拉伯语词汇进入了斯瓦希里语。
不过,索科特拉斯瓦希里语大概在上世纪末时已灭绝。目前在岛上使用的是索科特里语(Saqáṭri),属于亚非语系闪语族下的现代南阿拉 比亚 语(Arab ian )之一,并不是阿拉伯语(Arab ic )的方言。
总之,无论是目前已确定的小型语系,或是谱系有争议的语种,还是基本没找到什么可靠联系的孤立语,其实都存在很多假想中的“超语系假设”。当然反过头来看一些更加知名的语言群也是如此,比如经典的“阿尔泰语系”,真的就那么谈虎色变、从根本上去否定寻找超语系吗?并非如此,只是说 现阶段能获得的证据只允许做出现有的判断 ,就像经典谣言之“日语是孤立语”,其实目前证据只支持日语和琉球语同源,只能形成这么个小语系,再朝外面看无法和韩语、阿尔泰 语言联盟 或其它东北亚语等建立可靠联系。
或许哪一天,又有新的索绪尔提出了像原始印欧语里喉音理论那样不可思议却又确确实实管用的想法,把若干原本独立的语系能够真的联系起来;但或许这一天也永远不会到来。就像在亚欧大陆所看到的这样,语言推广就是一波接一波不断洗刷的,少量个体或许还能逃过大语系的吞噬而幸存下来,而更多的语系则毫无痕迹地消失在了历史长河中。只能说,生活在这个全球语言数尚且还能过7000(根据 Ethnologue)、而同时语学水平也还凑活的时代,知足了。
同系列传送:
参考
- ^ 曾经塔斯马尼亚岛可能也是,推测可能有2~4个语系,但现在已全部灭绝。
- ^ 巴西葡语推广太猛了,所以巴西境内的亚马孙平原核心地区已经看不出什么语言多样性了,但在周围国家所囊括的亚马孙平原边缘上仍能看到丰富的语言差异。
- ^ 图中标了凯特语,但貌似放在了斯拉夫语族的颜色里。
- ^ 图中尽管也标出了“尤卡吉尔”,但是误归入了满通语系。
- ^ 在印度语支使用者(“雅利安人”)到达南亚之前,南亚应该已经先一步被达罗毗荼语推平。事实上尽管目前主流的几种达罗毗荼语(泰卢固、泰米尔等)都在印度南方,其北部语族(是不是一个语族不好说)分布在相当北的地方,比如西北方向有布拉灰语(Brahui)分布在巴基斯坦,而东北方向甚至有零星达罗毗荼语在尼泊尔境内,可见该语系曾经的规模。
- ^ 南亚语系尽管主体在中南半岛,但其中蒙达语族和卡西-德昂语族的卡西语支都在印度东北部。
- ^ 不过,Nastaʿlīq 到底是一种字体,还是可以成为阿拉伯系字母下的一种独立文字,这个可能还不好说。比如在婆罗米系里,古吉拉特字母大体可以认为是不带横线的天城体,总体上和天城体很接近,但 Unicode 里就算作是两种文字了。
- ^ Winslow, Miron. "A Comprehensive Tamil and English Dictonary". 1862: 2613
- ^ 不过宽泛一点来说,其实在北美洲也有一种语言——卢库米语(lucumí),基于约鲁巴语,是古巴桑特里亚教(Santería)的宗教语言。卢库米语可以说是受奴隶贸易而产生的西非-加勒比文化的代表,但因为不作为日常口语使用,或许不能算是自然语言。