2015年的一个星期二下午,我走进芝加哥大学法学院地下一层最内侧的教室,参加三点半的法律经济学讨论会。这一天介绍论文的是一位经济学教授,论文题目是《人类决策和机器预测》(Human Decisions and Machine Predictions)。在场坐了不少法学院的老师,波斯纳父子(Richard A. Posner和Eric A. Posner)、伊斯特布鲁克(Frank Easterbrook)、兰德斯(William M. Landes),还有几名研究生。我很难忘记演讲嘉宾介绍论文后,教室里为时不短的沉默。以往的研讨会上,由于听众不停提问,罕有演讲嘉宾能在一个半小时里讲完头几页PPT。那天的会上,几乎没有听众插话。对演讲嘉宾如此“放纵”,在我的经历里还是头一次。情况是,在场的听众都有些错愕,这种错愕凝结在安静的气氛之中。提问随后才纷纷而来。
《人类决策和机器预测》以严格的方式证明,在保释问题上,机器能够作出比法官更好的判决。法律决策向来被认为是最为复杂的人类决策之一。机器能够替代法官,这种震撼难以言表——听众中不乏我们时代最好的法律学者,即便在他们看来,这一研究也足够震动人心。从作者的研究结论来看,可能会更好理解这种心情——“我们的研究结果意味着,在保持监狱在押人员规模不变的情况下,(以机器替代法官进行决策)将减少犯罪率达20%”,“这意味着如果将我们的算法推向全国,约等于为全国增加了两万名警察”Jon Kleinberg, Himabindu Lakkaraju, Jure Leskovec, Jens Ludwig, and Sendhil Mullainathan, 2018, “Human Decisions and Machine Predictions”, The Quarterly Journal of Economics 133(1):237-293.。换成更直白的话来说,有了这一算法,我们可以解雇美国全部保释法官,社会将变得更为美好。
***
科学的进展当然是逐步的。《人类决策和机器预测》只将研究限制在了一个很小的领域——美国法官的保释决策。在犯罪嫌疑人被逮捕后,保释法官需要在很短的时间内决定是保释犯罪嫌疑人还是将其收监等待正式开庭。至于为什么要把问题限定在这一狭小领域,以及,为什么对这一狭小领域的研究带来了思想方法和技术上的突破,就需要我们进一步学习人工智能和数据科学,才能切实体会。本书的一个目的就是介绍这些知识,特别是以法律人能够读懂的方式介绍这些知识。
本书大体由两个部分组成,第一部分讲机器学习,即人工智能方法的核心部分;第二部分讲因果关系推断,即数据科学在社会科学中应用的核心部分。为什么采用这样的结构?我们仍从以上的研究说起。
《人类决策和机器预测》由五名作者合作完成。其中三名是来自康奈尔大学和斯坦福大学的计算机科学家,两名是来自芝加哥大学和哈佛大学的经济学家。从作者构成来看,读者不免疑惑:为什么一项人工智能的研究,需要经济学家的参与?而以经济学为代表的社会科学,难道不仅是关于社会现象的学科,甚至在不少人看来是比较“软”的学科吗?人工智能似乎更“硬”,包含着更多的科技成分?
实际上,上述研究的核心难点(第二类统计谬误及因果关系推断)是由经济学家而非计算机科学家解决的,这充分体现了当代社会科学和自然科学间高度的交叉融合。如今,包括经济学、政治学和心理学在内的不少学科都将自己的研究领域定义为对人类决策行为的探究;在方法上,他们大多以物理学为标杆,模仿物理学在过去几百年来的成功经验——使用数学模型进行理论建构,使用统计学方法对理论命题进行实证分析和检验。就此而言,法官如何决策(一个实证问题,或者说,实然问题),以及法官应当如何决策(一个应然问题),便被收编于一般社会科学的研究范围内。整个现代社会科学的发展布满了类似方法的扩张,社会科学研究者通常将这一扩张过程称为“经济学帝国主义”——目前我们用以研究社会现象的很多数据科学即定量工具便是经济学家开发的。但其实,这本质上是数学和统计学的扩张,是自然科学方法的“帝国主义”。因此,要完整地了解人工智能和数据科学在法律中的前沿应用,我们不仅要了解计算机科学,更要了解以研究社会生活和人类决策为目的的各种方法,包括以预测为目的的机器学习方法,以及以因果推断为目的的社会科学方法。
一个让人不安的事实是,无论是相比于自然科学,还是相比于社会科学其他领域,法律人已经落后了。机器作出比法官更准确的决策,这无疑是重要技术突破,但法律人却并没有参与到这一工作中——这也是为什么,在研讨会现场的法学家们都不免略显讶异。实际上,法律人鲜少在重要的法律科技领域作出突出贡献,甚至,真正懂得法律科技的法律人也为数寥寥。如果未来是一个由智能科技主导的时代,如果机器和人工智能真的可以逐步取代法官,那么,未来的法律人该如何自处呢?是埋头于自己熟悉的领域,用法条分析、“折中说”、比较法来应对未来时代的挑战吗?或是像中世纪的神学家那样皓首穷经、研究“一个针尖上能站几个天使”,来应对刚刚兴起的科学的冲击吗?恐怕,是时候多了解外面的世界了。外面,不只是外国,更是指外面的学科、外面的视角和方法。
***
回过头来,我们还要问,机器真的能够取代法官吗?近年来,法律人工智能、法律大数据、数据法学、计算法学等词汇作为学术营销概念在我国大为流行。一方面,这引起了人们对法律和数据相关学科的极大兴趣,相关学术生产大为繁盛,法律科技产业迅速发展。这一背景下,不少法律人显得兴奋,也不免过于乐观,认为人工智能的“弥赛亚”即将降临,法律行业的颠覆性发展就在眼前。另一方面,“萝卜快了不洗泥”,学界和业界热衷追求时髦概念和词汇,但对基本技术原理的掌握并不扎实,对法律领域内已有的工作成果也缺乏基本了解。
从国内研究和产业现状来看,我们存在几个对相关学科的重大误解。其中之一是认为计算法学、数据法学、法律人工智能只是一些近年来兴起的学科,或者说,认为他们是全新学科,有着全新的方法和范式。因而,我们不需要太多积累、不必要细读过往文献,只要大干快上,就能开疆拓土、弯道超车,甚至开宗立派。之所以存在这种误解,很可能是由于不熟悉法律实证研究特别是定量研究的学术脉络。从根本上来说,这又是因为不熟悉统计学、数据科学和计算机科学间的关系,及这些学科在社会科学中的渗透和应用。
社会科学的定量研究自二十世纪七十年代日益发展起来。以使用的方法划分,这些研究大体分为三类。第一类是使用基本统计学方法,如相关性分析、逻辑回归、线性回归等,探索社会现象间相关性的研究。什么是相关性?即两个变量的共同变动趋势。比如,身高和体重存在正相关关系,量刑与犯罪严重程度存在正相关关系。法律领域的定量研究随着整个社会科学的定量化一起发展。在八十年代,研究者就将美国最高法院判决进行了数据化,发现法官决策与其政党背景有着很强的相关性——民主党法官在判决中更倾向于作出支持堕胎合法化、种族平权、限制持枪自由、加强经济管制的判决;共和党法官则恰好相反。参见[美]杰弗瑞·A.西格尔、[美]哈罗德·J.斯皮斯:《正义背后的意识形态——最高法院与态度模型》(修订版),刘哲玮译,北京大学出版社2012年版。 再比如,早期学者研究人们为什么守法,发现当事人对程序公正性的认同与对诉讼结果的认同高度相关,即认为程序公正的当事人,也更认同诉讼结果。See Tom R. Tyler, 2006, Why People Obey the Law, Princeton university press. 近十几年来,波斯纳晚年的主要研究精力都放在了对法官和司法系统的这类定量实证研究上。See Lee Epstein, William M. Landes, and Richard A. Posner, 2013, The Behavior of Federal Judges: A Theoretical and Empirical Study of Rational Choice, Harvard University Press.
当然,再往前推三百年,伦敦的统计学家早在1665年就发现,伦敦各街区的黑死病发病数与猫的数量有强正相关关系。这一发现启发伦敦市政府下令扑杀了不少猫,却也使得瘟疫愈发肆虐——到头来发现,黑死病是由老鼠传播的。是的,相关性不等于因果关系,错误推断因果关系可能有着很严重的后果。这是几乎所有统计学第一课就强调的问题。
这也是为什么,从二十世纪九十年代开始兴起的第二类定量社会科学将关注点集中在发现因果性上。这一轮定量社会科学的发展主要由经济学家主导,在经济学中,被称为实证研究的“可信度革命”。所谓可信度革命,即数据分析不仅仅满足于发现现象间的相关关系,更要能确定因果关系。革命的目的也很明确:“别杀害那些无辜的猫”——避免错误的法律和公共政策危害社会。
那么,什么样的数据分析方法,能够从相关性中推断因果性呢?答案出奇地简单:人类从实证(而非理论)角度确证事物的因果关系,有且只有一种思想方法,那就是实验。
今天,实验方法在自然科学中得到了广泛应用。但人类并不是天然就会做实验。科学史漫长,实验在近四五百年来才成为科学家自觉使用的方法。在培根(Francis Bacon)和小密尔(John Stuart Mill)的时代,才有了对这种方法的系统性总结和反思。社会科学中的发展则更为晚近,实验方法首先被应用在了社会心理学研究中。这类实验通常是在实验室中进行,有着人为设定因而也较为明确的处理组和控制组。显然,社会生活的很多方面不可能在实验室中得到重现,因而也难以在实验室中进行研究,比如,如何在实验室中研究人口增长、犯罪率控制、法律的实施效果呢?难以在现实场景中开展实验研究成了实证社会科学的一大发展障碍。就此,经济学在二十世纪九十年代开创了一系列新的思路,将类似实验方法的算法应用到对真实世界数据的分析中,进而实现了对真实社会的准实验研究。这些方法包括匹配、双重差分、断点回归、工具变量等。今天,这些方法成了定量社会科学研究的标配,经济学、政治学、社会学等领域的研究者都对它们耳熟能详了。开发这些方法的经济学家有不少获得了诺贝尔经济学奖,2021年的诺贝尔经济学奖得主安格里斯特(Joshua D. Angrist)和因本斯(Guido W. Imbens)就是典型代表。
从二十世纪九十年代起,准实验方法在法律研究中也得到了广泛应用。《魔鬼经济学》的读者常常惊异于史蒂芬·列维特(Steven D. Levitt)的发现:美国二十世纪七十年代堕胎合法化导致了九十年代(青少年)犯罪率的下降。John J. Donohue Ⅲ, and Steven D. Levitt, 2001, “The Impact of Legalized Abortion on Crime”, The Quarterly Journal of Economics 116(2):379-420. 这一研究的核心思路就是准实验,采用了一种非标准的双重差分的分析方法。在另一些研究中,他利用工具变量法测算警察数量对犯罪率的弹性系数(多雇一名警察,减少几个点犯罪率?);利用监狱拥挤诉讼引发的在押囚犯释放,测算在押率与犯罪率的关系(随机释放一名在押犯,导致犯罪率怎样的变化?)。See Steven D. Levitt, 2004, “Understanding Why Crime Fell in the 1990s: Four Factors That Explain the Decline and Six That Do Not”, Journal of Economic Perspectives 18(1):163-190. 不仅仅是犯罪学和刑法,实际上,经过近三十年的发展,这些准实验方法已经被逐渐应用到了几乎所有法律领域,包括宪法、合同法、财产法、公司法、诉讼法、国际法,等等。
二十一世纪以来,定量社会科学又有了新的发展。一方面,互联网飞速发展,数据抓取和自然语言处理等方法不断普及,为研究者提供了规模更大、模态更多样、颗粒度更细的数据,比如,文本数据、社交网络数据、图像音频视频数据、动态实时高频的金融经济数据,都得到了大规模采集和使用;另一方面,计算机存储能力和计算能力在十几年间呈指数增长(“摩尔定律”),为较为复杂算法(“人工智能”)的落地应用提供了基础——各种各样的非线性算法,特别是神经网络等深度学习方法,得到广泛使用。由于以上两点,数据科学特别是人工智能学科取得重大进展。与此同时,应用这些大数据和人工智能方法的第三类定量社会科学研究,即近年来所说的计算社会科学,开始逐步兴起。
就本质而言,第三类定量社会科学的研究目标与前两类定量社会科学非常接近。比如,与第一类定量社会科学一样,它注重发现事物间的相关关系;与第二类定量社会科学一样,在能够发现因果关系时,它也力图回答“为什么”的问题,尽可能可信地推断因果关系。与前两者不同的是,第三类定量社会科学更重视“作预测”——它将预测的准确度作为核心目标。
随着整个定量社会科学的发展,在法律研究中利用大规模数据作出预测的研究也日益发展起来;机器学习的方法被探索性地应用在了很多部门法领域。在这一背景下,便有了前文介绍的“人类决策和机器预测”这一重要成果。
总结来看,三类法律定量实证研究分别侧重相关性、因果性,以及预测能力。我们可以给最后一类研究起不同的名字,如计算法学、数据法学、法律数据科学、法律人工智能,但其背后的发展脉络是清晰的。这一研究领域并不崭新,不是“天上掉下来的”。
以上三类研究的研究者也有着很大的重合。最早利用相关性做研究的学者,后来也多开始采用准实验的方法;随着机器学习等算法的发展,他们也开始尝试使用更大规模的数据和较新的算法。这种重合很好理解——一个自二十世纪九十年代以来就擅长数据分析的研究者,很自然会与时俱进,采用最新研究方法。这些方法间也有明显的亲族关系:相关性分析是因果推断和准实验方法的基础;统计学家很早就发明的回归分析,至今仍然是机器学习(“人工智能”)的重要方法之一。对于学习者而言,前两类研究也是第三类研究的基础,需要循序加以掌握。这也意味着,不仅要学习热门时尚的“人工智能”,更要熟悉以往所有定量实证研究的主要方法和成果。
还需要澄清,不论方法和算法如何发展,因果性仍然是社会科学皇冠上的明珠,是最为重要的知识。这也很好理解——科学研究的目的,本来就是要理解事物间的因果关系,回答“为什么”的问题,进而增进人类知识——仅仅探索相关性,或是作出准确预测,并不足够。说到底,人类的好奇心才是科学发展的原动力。在这一问题上,使用复杂算法的计算社会科学有其较为致命的弱点:复杂算法的应用,特别是神经网络等深度学习方法的应用,在提升预测能力的同时,降低了算法的可解释性,即降低了我们对自变量与结果变量之间关系的把握和理解;很多时候,我们只知道预测准确性提升了,却不知道什么因素导致了准确的预测,从而变得更为一头雾水。这显然偏离了科学探索的本质。
***
除了容易过高估计计算法学的“新颖性”,我们还容易过高估计人工智能对法律的可能影响,甚至对法律人工智能有着幻想化、科幻化的期待。这大概是因为不肯下苦功夫去了解人工智能的基本知识和原理,太容易被新词汇、新概念而非新思想、新方法所引诱。
法律人工智能研究在近年来有了一定的突破,但其应用场景仍然是特定的,因而也是局限的。比如,使用机器学习,我们可以预测保释决策、预测刑期、预测美国最高法院判决;使用大语言模型(如ChatGPT),可以自动生成法律文书,可以进行交互法律问答。但是,这些已有的应用,大多建立在人类已经将大量非结构化数据(视频、语音、文本)结构化的基础上。同时,针对每一个应用场景,都需要研究者找准问题,收集大量数据,反复调校模型,也就是,都需要大量人工的介入;甚至,“人工”的成分远远大于“智能”成分。人工智能中凝结的更多是数据科学家辛勤的汗水;指望机器一劳永逸地解放法律人,还为时过早。而法律领域的通用人工智能,科学幻想的成分远高于科学成分。
近年来,法律界开始谈论莱布尼茨(Gottfried Wilhelm Leibniz)的理想和“法律奇点”论。莱布尼茨试图将法律简化为一组可以在计算机上自动执行的算法,在告知案情后,便可给出法律结论。这当然是试图将人类智能从法律推理过程中去除,从而彻底消除人类在执法过程中的自由裁量以及由此引发的滥权。这种“自动法律机器”,似乎是法律人工智能追求的终极理想。
只是,在人类已有的技术框架下,莱布尼茨的理想在未来数十年内恐怕并无可能实现。根本原因在于,让机器像人类那样感知证据、理解案件事实,是不可能完成的任务。是的,问题不在于老生常谈的“机器不能作价值判断”,或者“法律是不断变动的”——这些问题解决起来当然难度很大,但并非不可想象。难以解决的是通用人工智能领域的基础问题:如何让机器像人一样理解复杂的“故事”。讲故事——叙事、理解叙事——是人类的核心能力,也是法律工作的核心任务。说到底,法律程序就是在重新构建一个过去发生的事件,也就是“故事”。故事的基础是事实,事实的基础是证据。然而,所有的一切——证据的真实性、事实的可靠性,都需要人们根据自身的社会经验进行判断,形成“心证”。很大程度上,判断一个故事的真假,才是法律决策的真正难点。
当吴谢宇诉说犯罪动机,讲述他的母亲性格如何完美时,机器是否有能力判断这一陈述的真伪?(人类呢?)当劳荣枝强调,她在所有案件中都是被胁迫的帮助犯,机器有没有能力根据证据链上的所有证据,判断她在犯罪中的作用?甚至,不需要复杂案件,难题在日常纠纷中同样存在。借贷纠纷中,双方只有口头协议,机器如何判断借贷是否真实存在?离婚案件中,机器如何判断双方感情确已破裂?合同违约时,机器如何计算被违约方的可得利益,如何判断违约方的可预见性?侵权纠纷中,机器如何得知“社会一般人”在某一场景下的注意能力,进而判断注意义务和过错?
亚里士多德说,文学比历史更严肃。对文学美感的体悟,涉及对故事真伪的判断和理解;洞悉人性,穿越话语和矫饰,明辨发生于过往的事实,恰恰也是法律的难点,也是人工智能的难点。在这个意义上,法律实践背后有着人工智能难以突破的人类智慧。
***
对于法律人工智能(法律数据科学、数据法学、计算法学……),我们能期待什么?我们既不能闭目塞听,不了解这一领域令人兴奋的前沿进展;也不能听风就是雨,过于乐观,盲目相信它的未来。带领读者了解这个领域,维持大家心态的谨慎乐观,是本书的目的之一。
自2020年至2023年,我先后在香港大学和芝加哥大学讲授“人工智能、数据科学与法律”(Artificial Intelligence, Data Science, and Law)课程。课程一般持续十周左右,对象是两校法学院学生,以职业教育的研究生为主(LLM和JD),也有一些业界人士旁听。无论是在中国还是美国,我都能感受到大家对法律人工智能迸发出的很大的热情和兴趣。一方面,这当然与这些年来席卷所有领域的人工智能热潮有关,但另一方面,听众感兴趣,也是因为我所讲授的知识与大多法学院课程不同,让他们感到别有趣味。目前,我们有较多关于法律应当如何监管和规制数据和人工智能的研究和著作,但不论中英文世界,市面上都还没有关于人工智能如何应用于法律研究和实践的介绍性书籍。在业界和学界众多同仁的鼓励和督促下,我和卢圣华博士写下这本著作。