实测昆仑万维全球首款音乐推理大模型:十语种、多曲风全能演唱
腾讯科技特约作者 晓静
编辑 郑可君
昆仑万维继2024年4月推出第一代音乐生成模型Mureka V1(SkyMusic)后,于3月26日正式发布了Mureka V6和O1模型。
Mureka V6为基座模型,支持纯音乐生成,可以实现英语、中文、日语、韩语等十种语言的AI音乐创作。团队在该模型中引入了自研的ICL(in-context learning)技术,显著提升了声场开阔度、人声质感和混音设计。图丨Mureka V6进入界面,图中箭头所示位置(来源:Mureka官网)
Mureka O1模型,基于基础模型V6进行推理优化,成为全球首个引入CoT(Chain of Thought,思维链)的音乐模型,性能超越Suno、模型登顶SOTA级别。
昆仑万维也同时公布了MusiCoT的论文,不同于传统自回归模型逐步生成音频,Mureka O1通过引入CoT,首次在细粒度音频token预测前预生成整体音乐结构,大幅提升生成音乐的结构连贯性与乐器编排精准度。MusiCoT基于CLAP模型,无需人工标注即具备高扩展性,并显著提高了生成音乐的可解释性和质量。
图:同时公布音乐推理模型论文:通过CoT提高生成效果
根据Mureka官方评测,在发音唱对率、乐段准确率、文本相关度、制作质量等客观指标中,Mureka V6都优于Suno V4。

Mureka o1与Suno v4的对比效果
据了解,Mureka也同时开放了API服务,面向企业和开发者,不仅包括音乐音频生成API,还有语音合成API:
1. 音乐API a) 标准音乐生成API:支持多种输入包括文本提示、音色参考、音频参考的音乐生成,歌词创作。通过不同维度的输入,系统可生产多风格音乐及纯音乐,适用于内容创作、游戏配乐、短视频等多场景应用。 b) 精调私有曲库API:上传私有曲库定制专属风格,模型精调技术深度解析每一首旋律风格偏好,无需音乐知识也可轻松定制品牌音乐、个人专辑等专属内容。 2. 语音API 提供AI 语音播客、精品说话人、音色克隆等 API ,用于语音播客、预制精品音色语音合成、音色克隆等场景。 |
其中,Mureka同步开放的前沿语音合成API——Mureka TTS,在与ElevenLabs、OpenAI、微软的横向评测表现出色。
图丨Mureka TTS在对话聊天类全场景效果表现优异(来源:Mureka官方)
实测Mureka:创作中文版灌篮高手、模拟陈奕迅
无论是Mureka V6还是O1模式,可支持的歌曲创作曲风和情绪均涉及20余种,包括爵士/Jazz、电子/electronic、流行/pop、乡村country、R&B、soul、blues、摇滚/rock、舞曲/dance等;情绪涵盖快乐、放纵、神秘、充满活力、悲伤等。
例如我们选择Mureka V6模型,选择“纯音乐”创作功能,在文本框内输入:充满未来感的赛博电子舞曲,就得到了以下音乐:

如果选择Mureka O1模型,在文本框内输入:轻松欢快的百老汇乐队爵士英文歌曲,点击创作,Mureka可以自己填词,并立即生成一首完整的歌曲。歌曲的效果很不错,但是就是曲风有点搞混,比较像流行音乐风格的爵士。

也同样支持中文歌曲,比如创作一首主题为《碎碎念》的歌曲,风格古怪,曲风选择流行,输出了如下歌曲:

此外,Mureka还提供两个独家音乐生成的功能:
第一,歌曲参考(Reference Fuction):将音乐本身作为提示,可直接上传音频或Youtube链接作为创作提示;同时,在高级模式中,还可以自动生成歌词。
比如下图中,我的提示词是,我想听一首中文版的灌篮高手,并把参考歌曲的链接加到了右侧参考歌曲的提示框。最终生成了如下歌曲:

第二,音色克隆(Vocal Fuction):
Mureka是全球首个可以指定演唱歌手音色的AI音乐生成平台,不仅可以选择官方提供的多种歌手音色,还可以上传自己的声音,让AI学习并复刻,精准模拟歌手音色或者你自己的音色,一键生成个性化专属作品。
比如下面的示例,就是 克隆陈奕讯的声音。
