前言
历经3次寒冬,人工智能在2012年以深度学习的面貌再次崛起,同时借助数据、算法和算力快速发展并以肉眼可见的速度迅速商业落地,在众多领域展现出惊人的能力。在深度学习崛起的十年后,2022年12月,人工智能企业OpenAI发布了现象级的聊天对话模型ChatGPT,又重新点燃了人们对通用人工智能(Artificial General Intelligence,AGI)的热情。而人工智能与科学发现(scientific discovery),这两个激动人心的领域在这十年间也产生越来越多的交集,这种交集带我们走向一种基于数据和智能的更加快速和自动化的科学发现以及技术创新。人工智能现在可以精准预测蛋白质折叠甚至帮助创造新蛋白质、发现新的化学结构,帮助解决量子多体问题,我们几乎每天都能看到大量基于人工智能(AI-based)的科学发现并且还在不断加速。随着科学中实验仪器的不断智能化,数据的产生和分析也在不断地自动化,在可预见的未来大部分科学实践流程中的工作都会有人工智能辅助甚至被人工智能代替。
这些近代科学蓬勃发展几百年以来首次出现的新现象自然会带来很多新问题以及对旧问题的新思考,这些问题其实自通用电子计算机和人工智能学科诞生之初就有很多科学家和哲学家在讨论。比如从方法论角度,能否通过计算的方式去模拟科学发现的过程、去模拟科学概念和知识创新甚至去获得新的重大的科学发现?再比如从认识论的角度还有一些更加深刻的问题——科学,尤其是自然科学,是否还是人类的专利?当然肯定有人会说,人工智能系统也是人类构建的,类似深度学习这类人工智能方法虽然还存在可解释性等问题,但是归根到底是人类技术的产物,人工智能驱动的科学也是人类的科学。但与传统的人类做科学的方式相比较,人工智能参与的科学确实有不同的地方。这种不同不仅仅是机器的强大的曲线拟合能力和人类简单的归纳能力之间的不同,物理学家安德森说多即是不同(more is different),当数据多到一定程度的时候,当数据的层级足够低足够基础的时候,曲线拟合所带来的可能就不仅仅是经验规律,还可能是更加普适的科学理论。
本书是对类似上述问题的一些回答,是作者近几年跟随人工智能以及数据和智能驱动科学发展的一个研究集合。本书虽然名为“人工智能与科学发现”,但并未涉及人工智能的所有领域,而主要关注人工智能中的机器学习(machine learning)尽管现在机器学习几乎是人工智能的代名词。与科学发现的关系。科学发现是近代以来人类发展中最重要的活动,是知识甚至“真理”的最有效的生产方法。人工智能与科学发现的哲学研究是一个广阔的话题,仅从方法论和认识论的角度看就可以有很多不同的进路,本书仅取其中的一小部分,不企图做一个大而全的刻画,而是从机器学习入手,先现实地考察机器学习帮助下的科学发现能够达到的层次,再从数学认知和科学实践入手考察机器发现与人类发现之间可能存在的关系。
第1章主要描述事实并做简单分析,综述人工智能尤其是机器学习最近十多年在各个学科所参与的科学新发现和科学再发现研究,并分析其在科学再发现研究中的局限。
第2章介绍机器学习的基本原理,但并不是简单地把机器学习的各种教科书内容做一个复述,而是基于本书的要求——分析人工智能在科学发现中的作用——去有选择地刻画其基本原理,其中主要分析本书第9章会用到的自编码器(autoencoder),以及在科学再发现中经常使用的符号回归方法,并简单讨论符号方法与数据方法,以及人工智能中的可解释性问题。
第3章基于各种科学哲学的理论探讨科学发现的种类和层次,在从逻辑实证主义到科学实践哲学,从卡尔纳普到爱因斯坦的对于科学知识的分类的基础上,同样是基于本书的要求,得出科学发现的四层次理论。
第4章基于当前机器学习技术和对于科学发现的理解,分析目前的智能驱动科学发现所达到的层次,新发现和再发现研究分别达到的层次,并分析其中的局限。同时综述哲学家和科学家对于自动科学发现、数据驱动和智能驱动发现、科学发现的第四范式等各种问题的观点,区分对于自动科学发现的乐观派和悲观派。最重要的是在本章的最后提出本书第一个要点。当前的机器学习在理论上,当遇到科学发现实践中的某种特殊的情况时,能够帮助人类科学家发现新的科学概念、思想和科学理论甚至是原理新理论,并为第9章的案例研究做好理论准备。
前4章的内容主要是实证以及对实证内容的一阶分析,这对于一本哲学著作来说还远远不够“哲学”,不够本质。关于人工智能与科学发现之间更加深入的关系,关于“自动”科学发现是否可能直接发现而不仅仅是人工智能“帮助”科学发现,我们需要更多更深入的思考。所以本书从第5章开始内容会更加“哲学”一些,会更加深入地从科学哲学的视角去讨论科学理论的结构,探讨人类的科学发现与机器的科学发现之间可能存在的联系。
我们当前已有的科学是人的科学,就算是大数据与人工智能改变了很多科学研究领域的研究形态,但科学进步依然是基于人的“理解”之上的。那些目前还藏在黑箱中的取得科学进步的领域大多因为人类的无法理解而不能进一步获得新的发现和发展;而对于一些刚刚打开黑箱的领域,所谓“打开黑箱”就已经表示让模型去符合人类的理解。那么理论上人工智能是否能够脱离人的理解,自己生成“概念”并进一步指导科学观察和科学实验同时获得科学发现?这个问题很难在理论上说清楚,其实这更应该是一个实践问题。如果把这个问题称为智能科学发现的“强”问题,那么换一个弱一些的版本,我们可以问机器能否不断提供人类可以理解的“概念”,人类或者人类操作下的机器是否可以在这些概念框架下继续去观察和实验从而不断获得科学发现?理论上人工智能如果实现了强AI,也就是通用算法,就可以在包括科学发现在内的一切领域去替代人类的活动,但是我们暂时不讨论这种更加一般性的问题。这个问题就又回到了什么是人类的科学理论和对科学理论的理解是什么这些问题。
对科学理论及其结构的认识可以说是20世纪科学哲学的首要任务,大致可以分为语法、语义与语用三个进路。语法和语义进路都可以看作形式化的方法,这看上去与人工智能有关联的可能(实际上也是),但语法和语义的观点也恰恰是区分发现逻辑和辩护逻辑的基础,发现逻辑的非形式化阻止了通用机器发现的可能。而另外一种20世纪末开始逐步发展且当前仍然活跃的理论——语用的观点,或者更广义地说实践的观点,提供了科学发现逻辑的可能,但这里的“逻辑”含义更加广泛,表面看上去无法与机器学习对接。本书5~7章的一个重要任务是通过一种基于数学认知的科学实践的观点,综合形式化方法和语用方法的优点,从理论上探讨人工智能科学发现的可能性。如果说我们在前4章其实是把人类的科学与机器的科学分开来看,认为人类表征科学的某些形式如解析的形式无法让机器理解,机器只能通过数值的方式来帮助人类扩大理论空间并提示新的理论,那么在5~7章,我们则认为人类的这种数学表达方式在机器理论上也是可以渐进达到的,一些看上去非常抽象的机器不能理解的概念如“无穷”等,实际上可以还原或者联系到一些更加简单和日常的机器可以处理和理解的概念和行为。
要完成上述目标需要回答两个问题并完成两个方向的论证(不是严格的形式化证明)。第一个问题是人工智能理论上能够获得的知识是否超越了人类的理解,第二个问题是人类的科学是否在机器的能力之外。第一个问题的答案相对比较简单而且也有部分的共识。虽然当前机器学习模型还存在黑箱问题,但是归根结底人类是可以了解其运行机制的。可能有一种反驳的意见是要去理解一些超大模型如有百亿级别参数的模型,在实践上是不可能的,但实践上的不可能不是理论上的不可能。实践上的不可能永远只是某个时代的产物,我们其实没法预测实践上的不可能是否以及在何时能够因为技术进步而成为可能,如针对大模型的黑箱问题已经有很多关于人工智能可解释性的研究进展,而最近也在开展通过大模型自身(如OpenAI的ChatGPT)来把大模型中间的表征层翻译到人类可理解的水平这样的工作。LINDNER D, KRAMáR J, RAHTZ M, et al. Tracr: Compiled Transformers as a Laboratory for Interpretability[EB/OL]. arXiv, 2023[2023-01-31]. http://arxiv.org/abs/2301.05062.除此之外,还有一种观点认为,对于人工智能模型难以理解的来源不是黑箱问题,而是对于模型与对象之间连接的问题。SULLIVAN E. Understanding from Machine Learning Models[J]. The British Journal for the Philosophy of Science, 2022,73(1):109-133.所以第一个问题从理论上来说是否定的,我们就不在此详述了。
而对第二个问题的回答相对比较麻烦,且初看上去是不可能回答的。因为我们既不知道人类科学的本质是什么以及为什么会有这样的能力(知道什么是科学和知道怎么做科学是两回事),这是科学哲学一直追索的问题;我们也不完全知道机器的能力,虽然当前所有的单个计算机器理论上都是图灵机,但机器的结合以及机器与环境的互动却超越了这个限制。5~7章将尝试部分地回答第二个问题。简单地说,科学理论被看作科学的核心,而科学理论尤其是自然科学大多使用数学语言,那就从数学认知切入,数学基础问题、数学与计算的关系等数学哲学问题都十分深奥复杂,不是本书能把握的。笔者从另外一个认知路径切入,避开数学中的无穷问题或者关于无穷的难问题。尝试说明人类的科学研究及其成果与最基本的人类认知能力和结构的同构关系,而后者又是可计算的或者说奠基了可计算概念。
第8章讨论大语言模型与科学发现之间的关系,尝试分析大语言模型能否帮助实现自动科学发现,并探索如何把大语言模型嵌入已有的智能驱动科学发现的研究。
第9章是一个案例研究,使用19世纪与光的传播和以太性质相关实验的真实历史数据训练机器学习模型,目的是去探索在某些特殊的情况下——如数据与理论不符的情况下,机器学习是否能带来科学概念和科学理论上的发现。建模的结果表明,基于19世纪已知的观测和实验数据,机器学习模型至少能够发现不同于伽利略变换的一种二次变换形式(洛伦兹变换),并提示不假设以太的存在能够更好地解释所有现象。这两个发现恰好是狭义相对论的两个原理性预设,案例研究表明,在某些特殊情况下,机器学习可以发现新理论。