从“窃听”到“回应”:AI解码动物语言新突破,未来能否与动物谈心?
《自然》杂志撰文指出,人工智能(AI)在动物语音通信领域取得突破,揭示了灵长类、鲸鱼和鸟类等物种拥有复杂的叫声模式,这些模式在结构和功能上正逐步展现出接近人类语言的特征。

这一进展不仅挑战了“人类语言独特性”的传统认知,也引发了关于动物认知能力及跨物种对话可能性的广泛讨论。科学家正将AI技术与实地观察结合,加速揭开动物世界的“语言之谜”,这将革命性地影响生态保护和人类对智能生命的定义。
法国雷恩大学的梅丽莎・贝尔泰对倭黑猩猩进行研究
法国雷恩大学的梅丽莎・贝尔泰(Mélissa Berthet)研究发现,倭黑猩猩能像人类一样,通过巧妙组合不同叫声进行交流。这一成果不仅依赖贝尔泰的细致观察,更得益于现代录音和数据分析工具的辅助。
在长达六个月的观察中,贝尔泰发现倭黑猩猩会组合叫声形成复杂“短语”。例如,它们会结合表示“让我们一起做”的“yelp”和表示“看我”的“grunt”,传达类似“看看我在做什么,我们一起来完成吧!”的合作含义。
另一个案例是,倭黑猩猩会将表示“我想做这个”的“peep”与表示“让我们待在一起”的“whistle”组合,用于缓解群体冲突或分离重聚等敏感社交情境。
倭黑猩猩这种“叫声含义依赖上下文”的特性,与人类语言的“语境影响语义”高度相似,进一步模糊了人类与动物通信的界限。贝尔泰于今年4月发表在《科学》杂志上的研究,有力证明了非人类动物语音通信的复杂性。
目前,研究者已在多种物种中发现了曾被视为人类语言“定义性特征”的发声模式。这些发现促使学界对“语言”的定义进行重新思考。贝尔泰团队通过记录700次倭黑猩猩叫声,构建了首个完整的倭黑猩猩“叫声词典”,系统梳理了叫声类型和组合规则,为后续利用AI解码动物语言提供了基础。
随着动物通信复杂性的揭示,科学家们开始利用AI加速解读动物叫声。加州伯克利“地球物种计划”的大卫・罗宾逊指出,AI能通过机器学习算法分析海量音频数据,精准识别其中微妙的模式变化,甚至在噪声环境中也能有效处理信号,显著扩展了动物语言研究的范围。
研究的下一步目标是借助AI实现与动物的“回应式互动”,从而开启人类与动物对话的新时代,并为生态保护提供新思路(如通过解读鲸鱼信号避免船只碰撞)。然而,这一前景也引发了关于人类是否应干预动物自然行为的伦理讨论**。
01 组合叫声:动物语言的“语法雏形”
倭黑猩猩能够通过巧妙组合不同叫声,开展类似人类对话的交流活动
研究动物通信的科学家正以与语言学家相似的视角,探索动物语音产生、声音组合与“短语”结构,这为理解动物是否具备类似人类的语言构建机制提供了新线索。
大约十年前,“组合性”(Compositionality),即通过组合有意义的声音形成衍生意义表达的能力,被普遍视为人类语言和认知的标志性特征。然而,一系列研究彻底改变了这一认知。
2016年,日本山雀的研究首次清晰证明了动物叫声的“组合性”。山雀将“警戒”和“召集”两种叫声按特定顺序组合时,会同时表现出“警戒”与“聚集”两种行为;顺序颠倒则不会有类似反应。这类似于人类语言中“词序影响语义”**的规律,暗示了鸟类认知能力的保守性。
2023年的黑猩猩研究进一步拓展了该发现。科学家发现,黑猩猩面对模拟捕食者时,会组合“警报”与“召集”叫声,促使其他成员迅速聚集,共同应对威胁,显示出类似人类部落“警报系统”的协作通信策略。
尽管存在这些发现,学界仍长期认为人类是唯一能以多种方式运用“组合性”(如改变词序、创造习语)的物种。但贝尔泰及其团队对倭黑猩猩的研究削弱了这一界限。
研究发现,倭黑猩猩能以四种方式组合有限的叫声类型。除了意义为简单叠加的“简单组合性”(如“yelp–grunt”),它们还能展现“非简单组合性”。例如,一种叫声可以修饰另一种叫声的含义,类似于人类语言中“糟糕的演员”的表达逻辑。贝尔泰认为,这种能力暗示倭黑猩猩的认知可能比以往认知更接近人类,甚至可能反映了人类与倭黑猩猩共同祖先的语言潜力。
2025年,塞德里克・吉拉尔-布托兹(Cédric Girard-Buttoz)团队对黑猩猩的研究也得出相似结论。他们发现黑猩猩能以多种方式组合叫声,且部分组合短语的意义无法从单一叫声中推导,与人类习语完全一致。例如,将“在地上休息”的“Hoot”与“玩耍和亲密关系”的“Pant”组合,竟能促使群体成员“爬上树、筑巢并共同休息”。
吉拉尔-布托兹认为,这种“通过多种方式生成新意义”的能力是语言的核心基石,它可能源于人类与黑猩猩的共同进化祖先。
02 鲸鱼语言:海洋中的“复杂通信系统”
科学家们使用无人机将能够收集生物声学和其他数据的传感器附着在抹香鲸身上
除了灵长类动物,鲸鱼的语言同样展现出类似人类语言的显著特征。美国非营利组织“鲸鱼通信项目”(Project CETI)正在加勒比海跟踪和记录抹香鲸(Physeter Macrocephalus)的运动与声音信号,构建庞大数据集,旨在通过关联“鲸鱼声音”与“行为”来“翻译”它们的语言。
该跨学科项目利用AI、无人机和水下传感器等技术,探索抹香鲸的社会结构、文化变异,以及不同鲸群间可能存在的“方言”差异。
与人类通过声带发声不同,抹香鲸依靠鼻腔中的唇状结构振动空气,发出“click”(咔嗒)声。这些“click”声进一步组合成被称为“coda”(尾音)的通信单位。CETI的语言学家加斯珀・贝古什团队发现,“coda”并非简单信号,而是携带了节奏、语调等丰富信息,类似于人类对话的“抑扬顿挫”,可能对应抹香鲸的情感或意图传递。
科学家们去年的研究指出,抹香鲸拥有专属的“语音字母表”,不同的“coda”在节奏和速度上存在显著差异。贝古什团队进一步发现,抹香鲸的“coda”在部分特征上与人类语言中的元音、双元音高度相似。
人类元音因舌头和唇形变化产生差异,双元音则结合两个元音产生频率变化。抹香鲸的“coda”表现出类似的复杂性。团队识别出两种具有不同音型的“coda”,命名为“a-元音”与“i-元音”。这两种“元音”的频率变化存在上升、下降等四种模式**,被认为可能表明抹香鲸的“coda”中存在类似人类双元音的结构。
这一发现不仅丰富了人类对海洋哺乳动物认知能力的理解,也为AI技术生成“鲸鱼叫声”、实现与鲸鱼的双向互动奠定了重要基础。
03 语言的本质:动物通信能否被定义为“语言”?
动物通信是否算“语言”,既取决于“语言”的定义,也与对动物思维能力的认知相关。贝古什指出学界主要有两种对立观点:
第一种观点认为,语言与复杂思维紧密相连,复杂思维先于语言,是语言的源头。该观点源自乔姆斯基的“生成语法理论”,强调人类语言的先天性与独特性。若此观点成立,动物若缺乏复杂思维,就无法拥有真正的“语言”。
已去世的倭黑猩猩 Kanzi
第二种观点则将语言视为众多通信方式的一种,与手势、面部表情类似,无需依赖复杂思维。按此逻辑,即便动物无复杂思维,也可能有自身“语言”。对已去世的倭黑猩猩 Kanzi的研究为此提供了部分支撑,Kanzi曾被证明能学习人类沟通语言。但学界普遍认为,“动物实验室学人类语言”与“野外自然用自身语言” 是两回事,这类实验虽有争议,却为跨物种学习研究和动物权利哲学辩论提供了思路。
罗宾逊坦言,目前无法确定动物中是否存在完整语言体系,但AI技术正加速该领域研究,借助大数据与神经网络,人类或很快能在动物语言解码上取得突破。
当前,人类语言的部分核心特征尚未在其他物种中明确发现。语言学家霍克特提出的人类语言16个关键特征中,“位移性”、“生产性”、“双重性”尚未在非人类动物中明确识别,不过近年研究显示动物可能在部分方面接近这些特征:
位移性:指能讨论过去、未来、遥远事物及抽象概念。目前虽有间接证据,如海豚可能呼唤多年前消失的同伴“名字”、猩猩可能“讨论”此前出现的捕食者,但这些多为轶事性证据,缺乏足够实证,无法排除“巧合”或“简单记忆”的可能。
生产性:指能说出或理解从未听过的新表达,需个体能无限生成新声音组合。目前仅人类明确具备此能力,但AI模拟技术或为测试动物“生产性潜力”提供新途径。
双重性:指语言由“无意义小声音单位”组合成“有意义信息单位”。尽管抹香鲸会用 “click”声组合成“coda”,但尚未证明“click”无意义而“coda”有明确意义,未来AI深度分析或能澄清这一问题,构建更精确的鲸鱼声学模型。
此外,“递归性”也被认为可能是人类语言的独特特征,即通过在句子中嵌入短语创造更深层意义。德国学者戴安娜・廖通过训练乌鸦在触摸屏上按正确顺序啄选括号,发现乌鸦具备递归心理能力,表现优于猕猴,接近人类幼儿水平。
另一个关键争议是动物是否有定义语音通信结构的 “语法规则”。尽管灵长类动物已被证明能通过组合叫声产生不同意义,但吉拉尔 - 布托兹指出,其 “意义数量” 远不及人类语言。不过,随着研究积累,这一差距可能缩小,推动人类重新评估生命的智能多样性。
未来,随着AI工具升级,人类或能真正实现与动物“对话”,推动人与自然和谐共处。(文/腾讯科技特约编译无忌,编辑/涵清)