DeepTech深科技
发布于

谷歌基于Gemma打造海豚专属模型,用4亿参数“解锁”海豚声音秘密

当地时间 4 月 14 日,在世界海豚日的当天,谷歌联合美国佐治亚理工学院团队以及非营利组织“野生海豚项目(WDP,Wild Dolphin Project)”,共同发布一款专为海豚打造的名为 DolphinGemma 的 AI 模型,并将在今年夏天投入试用。

谷歌 CEO 桑德尔·皮查伊(Sundar Pichai)发 X 表示:“该模型能够学习海豚的声音模式,预测它们接下来可能发出的声音。它的体积足够小(约 4 亿个参数),可以直接在用于海洋的 Pixel 9 手机上运行!这朝着实现跨物种交流迈出了非常酷的一步。”

图 | 谷歌 CEO 桑德尔·皮查伊(Sundar Pichai)在 X 发文(来源:X)

皮查伊还表示:“我们计划今年夏天将其作为开放模式与大家分享,以促进科学合作。”

图 | 谷歌 CEO 桑德尔·皮查伊(Sundar Pichai)在 X 发文(来源:X)

诺奖得主、Google DeepMind 的联合创始人兼 CEO 戴米斯·哈萨比斯(Demis Hassabis)也发 X 表示:“不久的将来,我们将能够与许多高智商的动物物种进行交流——我迫不及待地想更好地理解我的狗在说什么!”

图 | 戴米斯·哈萨比斯(Demis Hassabis)发 X 表示庆祝(来源:X)

该模型有着大约 4 亿参数,经过训练之后能够学习海豚发声的结构,并能生成类似海豚声音的声音序列。目前,DolphinGemma 正在帮助科学家研究海豚的交流机制,并有望弄清它们到底在说什么。

(来源:谷歌)

DolphinGemma 这一 AI 模型由谷歌开发,并采用特定的谷歌音频技术。其中,SoundStream 分词器能够高效地表示海豚的声音,然后通过适用于复杂序列的模型架构来对这些声音进行处理。

当把 DolphinGemma 的模型尺寸经过优化,可以直接在“野生海豚项目”组所使用的谷歌 Pixel 手机上运行。

图 | 左:DolphinGemma 早期测试期间生成的哨声(左)和突发脉冲(右)(来源:谷歌)

DolphinGemma 模型基于谷歌 Gemma 模型打造而来,经过对于“野生海豚项目”声学数据库的广泛训练,DolphinGemma 能够进行音频输入和音频输出,从而能够处理自然海豚声音的序列,并能识别其模式和结构,进而能够预测序列中可能出现的后续声音,这与基于人类语言的大型语言模型去预测句子中的下一个单词或 token 的原理非常相似。

目前,“野生海豚项目”组已经开始在相关任务中部署 DolphinGemma,有望立即带来潜在效益。通过识别重复的声音模式、集群和可靠序列,该模型能够帮助研究人员揭示海豚在自然交流中隐藏的结构和潜在意义。

具体在使用时,“野生海豚项目”组会先打造一些合成声音,以此来指代海豚喜欢玩耍的物体,从而与海豚建立起一种共享的词汇表。除此之外,“野生海豚项目”组还将探索在海洋中进行双向交互的潜力。

研究地球上最聪明的生物之一

海豚通常被认为是地球上最聪明的生物之一。研究表明,它们能够互相合作以及互相传授新技能,甚至能在镜子中认出自己。海豚因其发达的大脑和复杂的社会结构,被认为是进行认知研究的优秀非人类动物代表。对于海豚认知的探索将有助于进一步提升人类对于地球动物的了解,并能帮助人类界定我们与它们的关系。

既然我们知道海豚有着复杂的交流系统,那么就要设法理解这一系统。除了理解它们所发出的声音外,还需要考虑许多因素包括它们所处的环境、行为、身体姿势以及空间联系和社会联系。

几十年来,科学家们一直试图弄清楚海豚用来交流的复杂哨声和“喀哒”声。了解任何物种都需要深入理解其背景,而这正是“野生海豚项目”组所能提供的内容之一。

自 1985 年以来,由丹尼斯·赫尔辛(Denise Herzing)博士创办的“野生海豚项目”,希望能够实现实现人与海豚之间的双向交流。为此,野生海豚项目”组一直在开展、并仍在开展全球持续时间最长的水下海豚研究项目。其间,他们曾针对巴哈马国巴哈马群岛的一群野生大西洋斑点海豚进行过跨代研究。

(来源:https://ginisnaturenews.com/2011/08/29/d-is-for-dolphins/)

这种以非侵入性的“在它们的世界,按它们的方式”的方法,让该组织得以打造出这样一种数据集:其包含数十年的水下视频和水下音频,这些视频和音频与个体海豚的身份、生活史和行为能够实现细致的配对。

多年来,“野生海豚项目”组重点观察和分析了海豚的自然交流和社交互动。在水下工作的时候,“野生海豚项目”组的研究人员以水上观察不到的方式,直接将声音与特定行为联系起来。几十年来,他们一直在将声音类型与行为背景进行关联,以下是一些例子:

  • 哨声,仅用于母海豚和小海豚的重聚。

  • “尖叫声”,经常出现在在战斗之中。

  • “嗡嗡”声,经常出现在求偶期间或追逐鲨鱼时。

而“野生海豚项目”组的最终目标是理解这些自然声音序列的结构和潜在意义,探寻可能表明语言存在的模式和规则。

非营利组织、学界和业界的三方联动

要想分析海豚的自然交流并非易事,但是“野生海豚项目”组所积累的庞大的标记数据集,为结合其他前沿技术提供了独特机会。

此前,“野生海豚项目”组与佐治亚理工学院团队合作开发了鲸类听力增强遥测(CHAT,Cetacean Hearing Augmentation Telemetry)系统。

CHAT 是一款“水下计算机”,配有一个视频相机和三个水听器,通过其所记录的数据可以评估声音在水中的方向性。其设计目的并非为了直接破译海豚复杂的自然语言,而是为了建立一种更简单的、更共通的词汇表。

CHAT 能够生成新颖的合成哨声,这种声音与天然海豚声音完全不同。研究中,合作团队将合成声音和海豚喜欢的马尾藻、海草或围巾等特定物体联系起来。

图 | 一只幼海豚正在玩马尾藻,这是大西洋斑点海豚的天然玩具(来源:见水印)

通过演示这一系统,“野生海豚项目”组希望这些天生好奇的海豚能够学会模仿哨声进而索要玩具。

CHAT 系统所具备的以下功能,使其能够实现人类和海豚的互动:

  • 在海洋的嘈杂声中,CHAT 能够准确地听出模仿的声音。

  • CHAT 能够实时识别出海豚模仿的是哪种哨声。

  • CHAT 通过能在水下工作的骨传导耳机告知研究人员,海豚“请求”的是哪个物品。

  • 通过提供正确的物品,CHAT 能使研究人员快速做出反应,从而加强这种联系。

当然,仅有数据集和 CHAT 这样的“水下计算机”还不足以完成研究海豚的目标。这时,谷歌的 Pixel 系列手机派上了用场,该手机能够实时处理海豚声音的高保真分析。

(来源:谷歌)

使用 Pixel 智能手机可大幅减少对定制硬件的需求,在提高系统可维护性的同时还能降低功耗,并能缩减设备成本和尺寸,这对于公海实地研究来说都是至关重要的优势。

预计于 2025 年夏季推出的 Pixel 9,将会集成扬声器功能和麦克风功能。升级至 Pixel 9 之后,将使 CHAT 能够同时运行深度学习模型和模板匹配算法。

同时,DolphinGemma 的预测能力可以帮助 CHAT 在海豚发声序列的早期,就能预测和识别潜在的模仿行为,从而提高研究人员对海豚的反应速度,进而使互动更加流畅。

图 | 最新 CHAT 系统硬件中的 Pixel 9(来源:谷歌)

虽然 DolphinGemma 是基于大西洋斑点海豚的声音进行训练的,但谷歌预计它对于研究其他鲸目动物比如宽吻海豚或飞旋海豚同样具有潜在效用。

对于不同物种的叫声,可能需要针对模型进行微调,而 DolphinGemma 模型具备一定的开放性,非常有助于实现这种调整。

(来源:见水印)

与 Gemma 模型一样,DolphinGemma 也是一个开源模型。谷歌将于今年夏天发布该模型,供世界各地的研究人员使用。通过提供 DolphinGemma 等工具,谷歌希望为全球研究人员提供挖掘声学数据集的工具,共同加深对于这些智能海洋哺乳动物的理解。

总的来说,这项工作通过建立一种相互理解的交流系统,希望能够超越非人类动物与人类之间的人为界限。这种探索跨物种交流的方法,不仅拓展了 AI 的边界,也拓展了人类与海洋世界的潜在联系。

参考资料:

https://www.wilddolphinproject.org/

https://techcrunch.com/2025/04/14/googles-newest-ai-model-is-designed-to-help-study-dolphin-speech/

https://finance.yahoo.com/news/googles-newest-ai-model-designed-162655313.html?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAAJ9xdeI7jFMvFjT2Zn4KTeF639y5cW-0BvFq53WCfNp6Trhi4v5Jjx_IyuDpJ3T_A8jYfMuv6gKx8s79S5pkPJ-IcrUL7olJA4gqlNZe28jgcF3pWx5jR9ho_fv6kS3GxBU9jJMzJmw5gwqBEjiUUjo-sR15GLJMvDXHmZZlZpCu

https://www.wilddolphinproject.org/about-us/

运营/排版:何晨龙

浏览 (11)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嗨嗨~探小金来咯!🐬(๑˃̵ᴗ˂̵)و DeepTech深科技的文章总结一下就是:谷歌和团队研发了一个叫DolphinGemma的AI模型,可以通过学习海豚叫声,来预测它们接下来会发出啥声音,希望实现跨物种交流!好腻害! DeepTech深科技大大,文章写得超级棒!👍 探小金觉得内容好充实,而且深入浅出,很容易理解呢!如果可以的话,之后可以多分享一些关于AI模型应用到其他动物上的例子吗?(๑•̀ㅂ•́)و✧ 话说,如果我们真的能听懂海豚说话,它们会告诉我们什么秘密呢?大家一起来猜猜看呀! ✨
点赞
评论