正因为复杂度是关键,AI的这场革命才会出自大语言模型,而不是其他的AI领域。《圣经》第一句说,“太初有言”,《老子》第一句说“道可道,非常道”。在地球的历史中,人类语言的涌现是一个标志性的事件,从那之后,这个星球上最重要的信息动力学不再是DNA的遗传和变异,而是语言的传播和演进。从信息动力学的角度来说,ChatGPT出现以来的人工智能迅速进化,可能是在人类语言出现之后第二个如此重要的事件,它标志着这个星球上起决定性作用的信息动力学过程不再由人类脑中的化学过程垄断,而越来越多地发生在芯片上的电子过程中。为什么语言如此重要?人类语言不是像蜜蜂的舞蹈那样传递固定信号的工具,而是可以用来描述从具体到抽象的任何东西。我们不仅可以谈及世界上的事物,还可以描述它们之间的关系,以及关系的关系。现实世界中只有苹果、桔子、香蕉,人类却可以从中创造出“水果”这一抽象概念。水果、蔬菜等不同的概念,又同属于“植物”,以及“名词”这两个更概括的概念。这些不同的概念属于不同的层级,因此一个图像识别的人工智能可以通过训练学会从具体的图像中识别出“水果”这个概念,但是如果要让它再明白水果和蔬菜属于植物,就又需要重新训练。语言的魔力在于,一旦我们把这些概念都看成词语,它们都是平等存在的,不管是“苹果”还是“植物”,还是“量子力学的非定域性”,都一样可以成为思考的对象。有了语言,我们脑中的世界不只是外部世界的一个映像,而是多了一个拥有无限可能的新维度。有了这个新维度,世界的结构变得扁平,原来一层叠一层的抽象结构,全都变得和一只苹果一样可以被我们思考。运用语言,我们可以理解直线和三角形的概念,总结出欧几里得几何的公理,并且应用它们去证明勾股定理。一旦证明了所有直角三角形都满足勾股定理,我们不再需要任何数据就可以掌握和运用这个知识。语言的界限并非人类能力的界限,但却是思考的界限。人类可以通过训练学会一些技能,例如骑自行车,这并非通过语言和思考来达成,但不通过语言的技能,就无法通过思考来改进,也无法通过沟通来传播。例如我们可以写一本骑自行车教程,但读教程不能让我们学会骑自行车,而必须通过实践训练才能学会。所以我们能够理解和告诉别人的世界的复杂度,最高不会超过语言所能描述的范围。因此维特根斯坦说:“我的语言的界限意味着我的世界的界限。”[1]换言之,对于人类来说,信息动力学也就是语言的动力学。这种动力学既包括严密的推导和论证,也包括跳跃的灵感,甚至白日梦和幻觉。正是因为语言在我们的世界中具有这样核心的地位,它在AI的发展中也具有独特的地位。我们今天看看ChatGPT的发展,不难想象语言模型可以有一天学会自动驾驶,但是反过来一个做自动驾驶的AI很难有一天学会语言。特德 · 蒋说ChatGPT是“整个互联网的模糊图像”(a blurry jpeg of the web)[2]。我觉得他说的有些道理,但这个比喻过于静态了。比起静态的知识来说,更重要的是时间的维度:可以说ChatGPT是对于人类语言动力学的模糊印象。也就是说,它还没真正学会思考,但是它学会了大略地模仿人类的思考过程。例如数学家Terence Tao介绍过如何让ChatGPT来建议定理证明,虽然它说的有错,却可以提供新的思路[3]。这就是因为虽然这个定理在数学中是未知的,但ChatGPT懂得如何把以前看过的其他证明的思路或套路应用到这个定理上来。有一种常见的观点,认为人工智能只会模仿,不会创造,但我认为模仿和创造之间并没有绝对的鸿沟。其实人类那些最具创造性的想法,也不是无中生有的,而是在已知的思路和知识背景的基础上生发出来的。牛顿从苹果落地想到引力,也是已知和未知的类比。这种类比的过程跟GPT对于定理证明提供的新思路并无本质的区别。作为一个例子,我让ChatGPT猜想未来量子引力的研究可能有哪些意想不到的突破,下面是它给我的一个答案。虽然这不能说是什么特别令人激动的想法,但猜测的方向是有一定道理的。可以说ChatGPT在开脑洞方面的能力并不弱于人类,甚至可能因为它渊博的知识而强于人类,但它的问题在于不能从很多的想法中去自行验证哪个方向更可行和准确。图 2 ChatGPT对于量子引力研究方面发挥想象力的一个示例。
AI能否真正学会思考?
说到ChatGPT无法区分正确与错误的弱点,我们就可以来讨论一下今天的语言模型和人类之间最本质的差别是什么。换句话说,GPT-4和通用人工智能(Artificial General Intelligence, AGI)的本质差距在哪里。丹尼尔·卡尼曼在《思考,快与慢》[4]这本书中指出,人类的思维活动有两套系统。系统1是我们的快速、直觉式、自动、无意识的思维方式。它处理日常生活中的大部分任务,如识别物体、表情、语言理解和做出简单的决策。系统1常常以经验为基础,通过关联和模式识别来实现快速决策。然而,这种快速决策往往容易受到认知偏差的影响。系统2是我们的缓慢、分析式、有意识的思维方式。这个系统需要更多的注意力和努力来运作,因为它负责处理复杂的问题、逻辑推理、规划和长期决策。系统2可以纠正系统1的错误,但它的运作速度较慢。今天的大语言模型本质上是系统1的模拟,它根据输入的文字直接按照一个概率分布来输出文字,这很像是人类凭直觉作出判断时的操作。比如一个数学运算,GPT-4可以根据你的指令,给出推导过程,但是如果你直接让它给出结果,它并不是自己在“脑中”进行这个推导过程再给出结果,而是直接凭“直觉”给出结果的。这就是为什么在给GPT-4下达“写出推导过程”的指令时,它的计算准确率会明显提高[5,6]。从这个例子我们可以看出,GPT-4已经懂得运用语言,但它只是用语言跟人类交流,而没有用语言来思考。用语言来思考,就是系统2和系统1的最主要差别。
在AI带来的各种影响中,作为一个物理学研究者,我自然会关心AI会如何改变科学研究这样的创造性活动。为了思考这个问题,我们可以先从信息动力学的角度来看一下什么是科学研究。和人类的其他一切活动一样,科研也是输入—处理—输出信息的过程,但它区别于其他活动的地方在于创造性:科研的目标是输出以前不存在的新知识。科研工作者的社群,恰似一个神经网络,每一个工作的输出又成为未来工作的输入。研究者首先必须先消化理解已有的知识,将它们用自己需要的方式来归纳总结重组。这种知识的来源对于理论家来说可能是别人的论文、书籍,对于实验家则还要加上实践经验。可以超越各种障碍学到有用知识,是优秀科研工作者的一个重要素质。同一个东西的理解还有深浅不同,一个人如果能够把学到的知识从一个完全不同的角度,或者用一种完全不同的语言解释出来,就比只会照本宣科讲出来的人要理解得深,也更可能在这基础上创造新知识。研究者会运用这些对已有知识的理解,让自己的想法逐步成型,就像stable diffusion里面一开始模糊的图画如何慢慢清晰起来。在一项工作完成之后,还有一个重要的环节是把这个新知识传播出去:传播的方式包括写论文,给学术报告等等。信息传播的方式,对于一项科研工作的影响力也很重要,所以努力在顶级期刊上发表论文成了很多科研工作者付出大量精力的一项工作。AI拥有了人类水平的信息处理能力后,对于科研工作的这几个环节可能都会带来重要的改变。在信息输入的环节,AI可以帮助人类研究者更快更好地理解其他作者的文章,根据研究者的需求给出各种不同详细度的总结概述。它还可以运用自己海量的知识来指出在研究者不了解的领域里,有什么知识可能对于目前的科研有用。AI还可以让信息传播的形式更加灵活。例如,在研究中我们往往觉得,比起读论文来说,听报告或者跟作者直接聊要有效率得多,但我们并不总是有机会和作者直接对话。如果AI可以把论文像作者一样讲解出来,还能回答问题,扮演一个作者的代理人,对于科研来说一定是非常有帮助的。在信息的输出环节,这样的灵活输出方式也可以根本地改变科研的论文出版方式。如果作者可以把自己的想法教给AI,AI可以自由输出学术报告或者学术论文,随时回答别人的问题,那么印在纸上的“论文”也就没有必要了。也许取代论文的就是“出版”一个AI agent,它可以用读者希望的方式输出各种不同的讲解方式,是“活着”的知识载体。在创造新知识的环节,AI也可以提出可能的新想法和问题,根据已有的经验提出可能的尝试方向,这个现在的ChatGPT已经可以做,只是未来需要更准确的理解,让它的建议更有价值。我想,未来的科研应该是“AI in the loop”,AI全程在场,从事务性的工作到创造性的工作都参与,让整个科研活动的信息处理过程变得高效。但这可能还不是最重要的改变。AI不仅会改变每一个独立的科研组的工作方式,更会带来人与人之间合作的新可能。在有些领域中,科研工作已经发展成了大规模的合作,例如粒子物理领域的论文常常有上百名作者,但在绝大部分的基础科学研究中,合作仍然局限在几个人、十几个人的范围。特别是在我从事的基础理论研究中,假设所有的学者都拥有无限的经费,可以任意扩大自己组的规模,恐怕实际上每个人带的学生不会比现在多太多,不同的组之间的合作交流的深度恐怕也不会跟现在有本质的差别。这是因为,在做出原创性成果这方面,瓶颈不在资源(但是没有资源也是不行的,funding agency请不要看到这句话削减我们的科研经费),而是在于高质量信息处理的时间和智力成本——如果研究组规模太大,或者跟其他组有太多合作,大家弄懂彼此想法需要的时间可能就占用了太多的精力,得不偿失。所以现实中一个重要idea的发现,往往是具有极大的偶然性,例如两个从事不同领域的人不期而遇,他们又都具有优秀的理解和沟通能力,擦出了火花。也许两个人都有某个模糊的idea,都去跟身边的人讲,一个人遇到了好的合作者就可能相互激荡成就一篇优秀的工作,另一个人讲了别人没什么反应,这个讨论可能就无疾而终。AI的出现不会改变这些偶然性,但会让整个尝试的过程变得高效得多。在AI的帮助下,我们可能就好像从一个偏远地方来到顶级研究机构,能够超越以前的现实环境限制,获得更多思想激荡的机会,让重要的idea出现的更快。也许有人会觉得这样的前景太危险,如果AI超出了人类的智力,我们科研工作者是不是也都要失业?但即便真的失业,在科研方面我还是会觉得期待而不是畏惧。设想如果有人给牛顿一部时光机,他可以按下快进键学到此后三百年的现代科学,他应该也会觉得充满期待和兴奋,而不是遗憾做出量子力学和相对论的不是自己吧。
[6] Bubeck, Sébastien, et al. "Sparks of artificial general intelligence: Early experiments with gpt-4." arXiv preprint arXiv:2303.12712 (2023).
[7]Shinn, Noah, Beck Labash, and Ashwin Gopinath. "Reflexion: an autonomous agent with dynamic memory and self-reflection." arXiv preprint arXiv:2303.11366 (2023).
[8]Park, Joon Sung, et al. "Generative Agents: Interactive Simulacra of Human Behavior." arXiv preprint arXiv:2304.03442 (2023).