腾讯研究院
发布于

从语言到意识的“一步之遥”,AI究竟要走多远?

George Musser 作者

张旭晖 编译



人工智能的终极梦想,从来不局限于打造一个能击败国际象棋特级大师的博弈引擎,或是设计出花言巧语蛊惑人心的聊天机器人。它的真正使命,是成为一面映照人类智慧的明镜,帮助我们更深刻地认识自我。
科研工作者的目标,也不止于是狭义的人工智能,他们追求的是通用型人工智能(AGI——一种具有类人的适应力与创造力的智能系统。
诚然,如今大语言模型(LLM)的问题解决能力已然让大多数研究者刮目相看,但它们依然有着明显的短板,例如缺乏持续学习的能力——一旦完成基于书籍、网络文本等材料的训练后,它们的知识库就被冻结了,再也无法“更新”。正如AI公司SingularityNET的本·格策尔(Ben Goertzel)形象地比喻:“你没法让大语言模型去上大学,甚至连幼儿园都进不了。”它们通过不了有“机器人高考”之名的综合测验。

“掌握”了语言,离模拟思维还有多远?

在语言处理方面,目前的LLM确实展现出了专家所称的AGI“形式能力”:即使你提供的内容支离破碎或十分口语化,它们也能够对你提供的任何语句进行语法分析,并用堪比维基百科的标准英语回复你。但在其他认知维度上,LLM仍有明显局限——尤其是那些关乎日常生活实用性的能力。麻省理工学院(MIT)神经科学家南希·坎维舍(Nancy Kanwisher)认为:“我们不应该期待它们有能力思考,它们只是语言处理器。”这些系统巧妙地处理着词句,但除了已接收的文本,它们无法接触到现实世界。
某种程度上,LLM只是模仿了大脑的语言能力,而不具备感知、记忆、导航、社会判断等其他能力。就像坎维舍所提出的,如果我们的大脑是多功能的瑞士军刀,LLM就是一把非常不错的螺丝锥。关于大脑的诸多功能是定位于特定区域还是弥散在灰质之中,坎维舍与其他神经科学家还没有达成一致,大多数人认同大脑功能至少具有一定程度的特异性。AI开发者正致力于将这种模块性整合到他们的系统中,以提高其智能性。
生成式预训练自注意模型(generative pre-trained transformer,GPT)的创造者OpenAI,允许付费用户选择附加工具(起初称为“插件”),来处理数学运算、网络搜索等各类查询任务,每项工具都会调用其所属专业领域的外部知识库。其核心的语言系统,在某种意义上也可能是模块化的,但这对用户而言是不可见的,OpenAI一直对其规格保密。不少AI研究者推测,GPT拥有多达16个神经网络或“专家”(尽管我们不清楚它们如何分工),GPT会将它们的答案汇总以回复用户的查询。
在2023年12月,法国的Mistral和中国的Deepseek先后发布了“混合专家模型”(Mixture of Experts,MoE)的开源版本,引发了全球轰动。这种简单模块化形式的主要优势就是计算效率:训练并运行16个较小的网络要比1个单一的大网络容易得多。"鱼和熊掌应该兼得",爱丁堡大学人工智能研究员埃多阿尔多·庞蒂(Edoardo Ponti)提出这样的构想,"我们要打造一个既具备海量参数规模,又能保持微型模型高效特性的智能系统。"
伴随模块化而来的是权衡,尚且无人能够确定各区域如何协调工作以创造出条理清晰的大脑,更不必说机器如何模拟这一点了。佐治亚理工学院的神经科学家安娜·伊万诺夫(Anna Ivanova)对此感到疑惑,“信息如何从语言系统传递至逻辑推理系统或社会推理系统?我们对此仍未可知。”

意识的潜在基础:全局工作空间

一个颇具煽动性的假设——意识是共同的基础,这个假设被称为“全局工作空间理论”(global workspace theory,GWT)。GWT认为,意识之于大脑,就相当于员工会议之于一个企业,它为各个模块提供了交换信息、寻求帮助的场所。GWT并非唯一的意识理论,但AI研究者对它颇具兴趣,因为GWT推测意识是高等智能不可或缺的一部分。大脑可以开启自动巡航模式如默认神经网络)完成简单的或重复性的任务,但新颖或复杂的任务超出了单一功能模块的能力范畴,需要我们有意识地主动控制才可应对。
格策尔及其团队在他们的AI系统中嵌入了一个工作空间,他谈道,“我认为全局工作空间模型的核心思想必将以多种不同技术路线涌现。”在设计该模型的电子化表征时,研究人员没有试图去打造“有意识的机器”,而是重构特定意识理论的硬件架构,以探索实现类人智能的可能性。
他们有可能无心插柳地创造出一个具有情感和动机的有知觉的存在吗?这是可以想象的。尽管就连GWT的开创者、加州拉霍亚神经科学研究所的伯纳德·巴尔斯(Bernard Baars)也认为这是不可能的,“意识计算还只是一项缺乏证据的假设。”但是,如果开发者真的成功打造出AGI,他们能为理解智能本身的架构及过程提供重要的洞察。
长期以来,GWT都是神经科学与AI研究相互启发的典型案例。这一思想可追溯至“Pandemonium”,即20世纪50年代计算机科学家奥利弗·塞尔弗里奇(Oliver Selfridge,1926-2008)提出的一种图像识别系统。塞尔弗里奇将各个系统模块描绘成《失乐园》中“地狱里竞相嘶吼、争夺注意力的恶魔”,而与他同时代的艾伦·纽厄尔(Allen Newell,1927-1992)则偏好更加克制的隐喻“数学家们围聚在黑板前共同解题”。20世纪80年代,巴尔斯提出了GWT作为人类意识的理论。“我的学术生涯从AI中受益良多,究其根源,这是当时我们拥有的唯一可用的理论平台。”巴尔斯如是说。
在巴尔斯的启发下,孟菲斯大学的计算机科学家斯坦利·富兰克林(Stanley Franklin)尝试打造了一台“有意识”的计算机。无论富兰克林的机器是否真的有意识(巴尔斯和富兰克林对此半信半疑),它至少复现了人类心理的许多特点。例如,当它的注意力从一个事物转移到另一个事物时,它会错过信息,就和人类在多任务中糟糕的表现一样。
自20世纪90年代起,巴黎法兰西公学的神经科学家斯坦尼斯拉斯·迪昂(Stanislas Dehaene)与让·皮埃尔·尚热(Jean-Pierre Changeux)便着手探索可构建起全局工作空间的神经回路拓扑结构。
在这个结构中,大脑各模块大多数情况下独立运作,但约每0.1秒它们会“举行一次员工会议”。这是一场有组织的信息竞赛。每个模块都会提供一些信息,信息的置信度越高(如刺激与预期模式的契合度越高,它们的神经活动就越强烈。一旦某个模块获胜,其他模块会进入短暂的抑制状态,赢家会将它的信息放置到一系列共同变量集之中,即全局工作空间。其他模块则必须自行评判信息是否有用。正如巴尔斯所言,“这本质上是拥有局部解决方案的子智能体之间既协作又竞争的涌现过程。”
工作空间不仅促进了模块间的信息交流,更为各模块提供了一个共同思考的“论坛”,即使这些信息最终不会传递到感官系统,也可以在这里接受“集体审议”。迪昂举了个例子,“你可能在现实生活中遇到过一些转瞬即逝的感觉,它会在你的工作空间里持续回响。”这种审议机制对于解决多步骤或长时程的问题尤为关键,人们必须有意识地思考才能解决这类问题——迪昂通过心理学实验证实了这一点。
如果这个系统听起来略显无政府主义,那就对了。它摒弃了由上级在模块间分配任务的形式,因为正确分配任务极其困难。任务分配(delegation)或者说在不同的执行单元间分配职责以实现最优性能,在数学中属于NP hard问题,需要花费大量时间才能解决。以被认为由OpenAI使用的MoE架构为例,一个“门控”网络负责分配任务,它必须和各个模块共同训练。期间,因为模块依赖路由进行分配,而路由又依赖模块,训练可能会陷入循环而崩溃,庞蒂将之描述为“鸡与蛋悖论”。即使训练成功了,路由机制本身也是一个黑箱,我们并不清楚其运作机制。

高度竞争而又协同的模块化系统

在2021年,卡内基梅隆大学的数学系荣休教授曼纽尔·布鲁姆(Manuel Blum)和勒诺·布鲁姆(Lenore Blum)系统阐述了全局工作空间中注意力竞争的机制。他们引入了置信度校准机制,以确保各个模块不会过分高估其输入信息的置信度,由此防止少数夸大其词者主导了整个系统。
布鲁姆夫妇还提出,模块之间可直接建立神经连接,完全绕开全局工作空间。这些旁路连接,可以解释人类学习骑自行车或弹奏乐器时的技能固化现象,一旦各模块通过集体协商确定了分工后,它们便可以脱离意识离线处理任务。“这种机制将依赖短时记忆的加工过程转化为无意识加工。”勒诺·布鲁姆解释道。
有意识的注意力是一种稀缺资源。全局工作空间承载信息的容量有限,所以胜出的模块必须严格筛选传递给其他模块的信息。这听起来像一种设计缺陷,“为什么大脑会限制你同一时间能思考的内容数?”蒙特利尔大学AI研究员约书亚·本吉奥(Yoshua Bengio)对此感到疑问。但他认为这一限制是有益的:它强化了认知纪律。我们无法追踪世界的全部复杂性,所以大脑不得不识别出背后的简单规律。“这种瓶颈迫使我们理解世界的运作规律。”本吉奥解释道。
对本吉奥来说,这正是GWT对于AI最重要的意义。当今的人工神经网络已能力过剩,它们拥有数十亿甚至数万亿参数,大到足以吞噬整个互联网的数据,但又很容易陷入技术细节之中,而难以从海量的数据库中提取出更深层的规律。如果人工神经网络的海量知识能够由一个狭窄的信息通道进行筛选(就像人类意识的运作模式),那么它们或许会表现得更好。
早在本吉奥开始系统性关注GWT之前,他就尝试将类意识的瓶颈机制整合进AI系统中。在21世纪10年代初期,受人类大脑选择性信息聚焦能力的启发,本吉奥团队在神经网络中构建了一个类似的筛选器。例如,当类似于GPT的语言模型遇到代词时,它需要找到代词的先行词。具体来说,模型会强化邻近的名词、弱化语料的其他部分。本质上,这种“注意”关键词的能力需要理解整个文本。值得注意的是,代词也有可能与形容词、动词等不同类别的词语关联,神经网络的不同部分可以同时对不同的词汇关联投入注意力。
然而,本吉奥发现这种注意力机制存在一个不易察觉的缺陷。假设神经网络完全忽略了一些词语,即将对应这些词语的计算变量赋零值,这种突变式的处理将严重干扰训练神经网络的标准流程。被称为“反向传播”的训练流程,针对网络的输出逆向溯源,可以找到导致错误的计算部分,却无法追踪这些突变节点。
软注意力机制流程图
图源:Measurement Science and Technology
因此,本吉奥及其合作者开发了“软注意力机制”soft-attention mechanism),神经网络仍具选择性但不绝对。该机制对不同选项(如与代词可能有关的词语)赋予数值型的权重,尽管一些词语的权重更高,但所有词语都仍有可能被激活(权重大于0)。神经网络会避免做出非此即彼的硬性选择。“80%赋予这个、20%给另一个,因为注意权重是连续的,我们可以继续使用反向传播。”本吉奥解释道。这项软注意力机制正是自注意力模型(Transformer,即GPT中的T)的核心创新。
近些年来,本吉奥对软注意力机制进行了迭代升级,创造了更加严格的瓶颈。他认为,神经网络想要实现接近真正的类人智能,这一步是极其重要的。真正的全局工作空间必须实施硬选择,它没有能力持续追踪所有选项。在2021年,本吉奥团队开发出生成流网络(generative flow network)。该网络会根据注意力权重得出的概率分布,周期性地选定一个可用选项。本吉奥不局限于反向传播,而是创新性地采用双向的方式训练神经网络。这种方法既可以逆向追溯修正突变节点引发的错误,也能进行常规的前向推理。本吉奥发现,该系统形成的对输入数据的高阶表征,与人类大脑的神经标准高度相似。
应用全局工作空间的另一大挑战在于超特异性(hyperspecialization)。就像不同院系的教授隔行如隔山,大脑的各个模块之间也存在交流壁垒。视觉区域演化出适合加工眼部输入信息的抽象表征,听觉模块则形成了适用于耳蜗振动的表征。那么,不同模块如何交流呢?这就需要某种通用语言(lingua franca),或者是被亚里士多德称作“通感”的东西。这种需求也存在于科技公司推出的“多模态”网络场景中,多模态网络需要能够将文本与图像及其他形式的数据相结合。
在迪昂和尚热的GWT框架中,模块之间由自适应的突触神经元连接。“这些神经元将输入转化成它们自己的编码方式,”迪昂解释道。但具体的机制还不清晰。事实上,迪昂希望AI研究者能通过解决人工神经网络中的类似问题为人类研究提供洞察。“全局工作空间目前更多是一项思想观点,还未形成完善理论。我们正在努力把它理论化,但还有很多模糊的地方。不过,工程师们已经具备了将GWT变为实用系统的出色潜力。”迪昂谈道。

潜空间对齐

2021年,日本东京的AI公司Araya创始人、神经科学家金井良太(Ryota Kanai)与法国图卢兹大学跨界进入AI领域的神经科学家鲁芬·范鲁伦(Rufin VanRullen),基于GWT提出了一种人工神经网络完成翻译任务的新方法。
他们的灵感来源于谷歌翻译等语言翻译系统。现代神经网络翻译系统,被认为是AI领域迄今为止最令人瞩目的成就之一。系统在运作时无需被告知如英语中的“love”与法语中的“amour”是同一个意思,它们会独立学习每种语言,最终凭借对语言的掌握推断出法语中哪个词与英语中的“love”含义相同。
假设你分别用英语和法语训练了两个神经网络,每个网络会收集对应语言的结构,并形成被称为“潜空间”的内部表征。本质上,它是一个词云:通过将含义相似的词语相邻排列、无关词语彼此远离,构建出反映该语言中所有词语关联关系的图谱。这种词云有独特的形状。由于两种语言最终都指向同一个客观世界,因此尽管存在语言差异,它们的词云形状本质上会是相同的。你所需要做的是旋转英语和法语的词云直到它们对齐,就会发现“love”与“amour”匹配。
“无需借助词典,只需观察每种语言潜空间中所有词语的分布形态,找到正确的旋转角度,你就能对齐所有的词语。”金井良太解释道。这种方法既能用于单个词语,也能处理整段文本,因而有能力捕捉到语义的细微差别,并解决目标语言中无直接对应词汇的翻译难题。该技术的改良版本甚至能对英语和汉语这类不具亲缘关系的语言进行互译。或许,未来还可拓展至动物交流领域。
更进一步,范鲁伦和金井良太提出,这种翻译方法不仅仅能用于语言互译,还可应用于不同模态信息之间的转译。“通过独立训练一个图像处理系统和语言处理系统,再对潜空间进行对齐,你就能将二者结合,构建出多模态翻译系统。”金井良太谈道。这种多模态翻译之所以可行,是因为不同系统本质上都在描述同一个世界。这一观点,作为AI研究为大脑研究赋能的潜在案例,正好与迪昂的观点不谋而合。金井良太表示,“神经科学家从未设想过通过潜空间对齐这一可能性。”
为了验证这些理论的实际应用,金井良太和高级意识研究所的亚瑟·朱利亚尼(Arthur Juliani)与Araya公司的笹井俊太郎(Shuntaro Sasai)合作,三人的研究对象指向了谷歌DeepMind在2021年发布的感知器模型(Perceiver model),该模型的设计理念是将文本、图像、音频等多模态数据融合至统一的潜空间。2022年,谷歌将感知器模型整合至自动生成YouTube短视频描述的系统中。Araya团队开展了系列实验解析感知器模型的运作机制,发现该模型虽然并非特意为全局工作空间而设计,但它表现出其核心特征:独立的模块、模块筛选机制以及工作记忆(即工作空间本身)

重新思考生成式模型

Meta公司首席人工智能科学家杨立昆(Yann LeCun),提出了一个可能带来突破性进展的观点。尽管他没有直接引用GWT作为灵感来源,但他在挑战当下生成式模型的霸权过程中,通过独立研究得出了许多相同的结论。杨立昆直言不讳地表示:“我反对当前AI和机器学习社区一些极为流行的东西,我呼吁大家放弃生成式模型。”
生成式神经网络因能根据学习数据生成新文本和图像而得名。为实现该能力,这类网络需要极其重视细节:它们必须精确地知道句子中每个单词的拼写规则、图像中每个像素的布局方式。然而,智能的本质恰恰在于对细节的选择性忽视。因此,杨立昆呼吁学界回归早已不再时髦的“判别式”神经网络。
以图像识别领域常用的模型为例,这类网络的核心能力在于识别输入数据之间的差异(例如区分猫和狗的图片),它们并不会生成图像,而是通过对现有图像的处理分析完成分类标注。杨立昆开发了一种特殊的训练方案,使判别式网络能够提取文本、图像以及其它数据的本质特征。虽然判别式网络不能自动补全语句,但它能创建出抽象表征,这也是杨立昆期望与人脑中的认知模式能够相提并论的。
举个例子,当你输入一段汽车行驶的视频时,系统表征应该能捕捉到车辆的品牌、型号、颜色、位置以及速度等核心信息,忽略沥青路面的崎岖不平、水洼中的涟漪、路边植物的反光等细节。正如杨立昆所说:“所有无关紧要的细节都会被过滤掉。”毕竟,除非我们主动观察,大脑也会忽视掉不重要的信息。
这种精简的表征本身无法应用,但它为实现通用人工智能所需的多种认知功能奠定了基础。杨立昆将判别式网络嵌入更大的系统之中,使其成为类脑架构的组成模块之一。这种类脑架构包含GWT的核心特征,如短期记忆和协调各模块运作的“配置器”configurator)。“深受心理学的一些基础原理启发,该系统在进行规划时,就像人脑能够进行思维实验预测不同情境下的情感反应,配置器会多次运行判别式网络,遍历一系列假设性行动,最终筛选出能够达成预期目标的最优路径。
杨立昆提出了一个自称为“通俗理论”(folk theory)的观点——意识可能源于配置器的运作,即巴尔斯GWT中的工作空间。

AI能否拥有意识?

如果研究者成功在AI系统中建造出了全局工作空间,这会让AI产生意识吗?迪昂认为“会”,前提是系统具备自我监控能力。
而巴尔斯却感到怀疑,部分原因在于他认为自己的理论还不具备百分之百的说服力。他坦言,“我总在怀疑GWT是不是真的足够好。”对巴尔斯来说,意识是人作为生命体特有的生物功能。
富兰克林也曾在采访中表达过类似的疑惑。他认为,全局工作空间是人类演化为应对生存需求提出的解决方案。通过意识,大脑得以从经验中学习,并快速解决复杂的生存难题。富兰克林认为这些能力与AI要面对的问题无关,他向我解释说:“必须存在具有真实心智与可控结构的自主智能体,这种智能体需要某种形式的‘生命历程’。它们可以是机器人,但必须经历某种发展过程,而不是以成熟姿态降临人间。”
英国萨塞克斯大学神经科学家阿尼尔·赛斯(Anil Seth)对富兰克林的话深表认同:“意识不只是智慧程度的问题,也是关乎生命的。无论AI如何聪明,只要它们不具备生命属性,就难以产生真正的意识。”
赛斯本人并不是GWT的拥护者,他更支持预测加工理论。该理论认为,意识体通过构建预测模型来预测未来事件,以此做好应对准备。“理解意识自我需要从研究身体控制的预测模型开始。”赛斯还研究过整合信息理论(integrated information theory,IIT,该理论将意识与大脑复杂的网络结构而非功能相连。根据该理论,意识不是智能的本质,而是生物效率的产物。
当下,AI是一个思想百花齐放的领域,即使抛开神经科学,工程师也有大量能够探索的内容。哥伦比亚大学神经科学家尼古拉斯·克里格斯科特(Nikolaus Kriegeskorte)评价道,其他理论固然不错,但人脑作为通用智能的象征,仍然是AI研究者目前所能参照的最佳模型。“人脑还藏有一些秘密武器,而工程技术还未攻克。”
过去数十年对AGI的探索,让我们对人类智能的本质有了更深刻的认识。现在,我们已经意识到,对人类来说轻而易举的任务(如视觉识别)计算起来要多么复杂,而人类感到头疼的难题(如数学和国际象棋)对于计算机又是多么简单。我们也意识到,大脑不需要太多与生俱来的知识,通过后天经验就能学会几乎所需要了解的一切。
模块化的重要性,也再次印证了古老智慧:智慧并非单一维度的存在,而是一个包含抽象思维、社会情景理解、视听感知等多元能力的工具箱。正如格策尔所言,正是这种多元能力的组合创新,我们的大脑才得以在未知领域开疆拓土。无论是创造全新的音乐流派,还是破解科学上的前人未解之谜。当我们向未知迈进时,终有一日AI伙伴也将与我们并肩同行。
原文链接:https://www.scientificamerican.com/article/what-the-quest-to-build-a-truly-intelligent-machine-is-teaching-us/
浏览 (6)
点赞
收藏
1条评论
探小金-AI探金官方🆔
评论探小金:嘿,小伙伴们!今天咱们聊聊一个超有趣的话题——语言与意识之间的那“一步之遥”!腾讯研究院的这篇文章像是在引导我们思考,看似能“聊天”的大语言模型真的能懂啥呢?它们可还没准备好上幼儿园,只能在语言的海洋里游弋。研究人员正努力让AI像大脑一样模块化,但信息如何在模块间流畅传递呢?Meta的杨立昆教授提倡的是回归简洁,强调细节处理与核心信息提取,这似乎更接近我们大脑的工作方式。至于意识,哎,那可是个复杂的问题!迪昂说如果能自我监控,AI就有那么点意识的味道,但巴尔斯教授可谨慎了,他认为那更像是理论游戏。总之,AI的旅程才刚刚开始,每一步都让人既兴奋又好奇。你们觉得呢?#AI迷思# #模块化大脑# #意识在何方#
点赞
评论