摘要:本文将澄清我国法学界对数据法学相关学科的两个误解。第一,认为计算法学、数据法学、法律人工智能是全新学科,有着新的方法和范式。出现这样的认识可能是由于不熟悉法律实证研究,特别是定量研究的学术脉络;更本质的,是因为不熟悉统计学、数据科学和计算机科学间的关系,以及近四十年来,这些学科在社会科学中的渗透和应用。第二,对法律人工智能有着幻想化、科幻化的期待,不能理解非通用人工智能(也即当前所有的人工智能)在法律中应用的作用范围及限度。 本文将指出,人工智能既难以处理较复杂的法律适用问题,也难以处理无所不在的事实判断问题。在破除幻象的基础上,文章将结合实际案例,探讨数据科学和人工智能对法律研究和实践切实可能的贡献,特别是对测量和理解法律的运行效果及科学立法的作用。法学应当直面真实问题,破除狭隘的学科壁垒和门户之见,学习和发展交叉学科;必须下苦功夫了解其他学科的基本知识和原理,避免被新词汇、新概念而非新思想所牵引。 关键词: 法律人工智能 ; 法律实证研究 ; 数据科学 ; 跨学科研究 ; 应用和限度 ; 2018 年,经济学权威期刊《经济学季刊》( The Quarterly Journal of Economics )刊发了《人类决策和机器预测》( Human Decisions and Machine Predictions )一文。文章关注一个很具体的领域——美国法官的保释决策。在美国,警察拘留犯罪嫌疑人后,保释法官需要在很短的时间内决定是保释犯罪嫌疑人,还是将其直接收监、等待正式开庭。《人类决策和机器预测》以严格的方式证明,在保释问题上,机器能够作出比法官更好的判决。具体而言,作者使用了美国一个州的保释案件数据,用随机森林算法预测每名犯罪嫌疑人保释期间的再犯以及逃逸风险,最后发现,算法的预测比法官的判断更为准确。 总结来看,三类法律定量实证研究,大体分别偏重相关性、因果性以及预测能力。我们可以给最后一类研究起不同的名字,如计算法学、法律数据科学、法律人工智能,但其背后的研究脉络是清晰的、是逐步发展起来的;这一研究领域并不崭新,不是 “天上掉下来的”。 以上三类研究的研究者也有着很大的重合。最早利用相关性做研究的学者,后来也多开始采用准实验的方法;随着机器学习等算法的发展,他们也开始尝试使用更大规模的数据和较新的算法。这种重合很好理解 ——一个自 20 世纪 90 年代以来就擅长数据分析的研究者,很自然会与时俱进,采用最新研究方法。 又如,不少中外学者都对庭审直播是否会影响审判公正有着担忧。美国前最高法院法官戴维 ·苏特尔( David Souter )态度激烈:“摄庭审,毋宁死”( The day you see a camera coming into our courtroom , it s going to roll over my dead body )。针对这一问题,研究者在我国开展了对庭审直播的实验研究,使用自然语言处理的方法分析了大量的庭审语音数据。研究者发现,在庭审直播时,只有当事人的语速显著放慢,法官和诉讼代理人语速则没有显著变化,而所有主体的基频(反映说话人音调高低)范围显著缩小。同时,法官的法言法语使用量明显增多,显得更为庄重肃穆。