模型总览
扩散模型架构 · 2025.1
Tempolor 3.5
基于扩散模型与连续音乐音频表征,生成 44.1kHz 双声道高保真音乐。推理实时率低于 0.1,整曲生成速度达业界顶尖水平。
44.1kHz 双声道
Diffusion 架构
ControlNet 旋律控制
Inpaint / Repaint
RTF < 0.1
概述

Tempolor 3.5 基于扩散模型(Diffusion)与连续音乐音频表征,支持生成 44.1kHz、双声道高品质音乐。该版本在技术路线中,从偏重语义骨架建模的生成范式,进一步演进至以连续声学表征为核心的高保真音乐生成范式,显著提升了声音纹理、空间层次、动态表现以及整体听感的自然度与完成度。

Tempolor 3.5 通过引入 ControlNet、Inpaint / Repaint 等可控生成能力,进一步拓展了模型在旋律控制、歌词编辑、局部重绘等场景下的可编辑性与可控性,为更精细化的音乐创作与交互式编辑提供了技术基础。

在推理效率方面,实时率低于 0.1,整曲生成速度为业界顶尖水平。

模型表现

Tempolor 3.5 在细节听感和氛围表达上具备明显优势。模型能够更自然地恢复混响尾音、动态起伏、纹理层次与空间纵深,使生成结果在抒情、空灵、悬疑、史诗等情绪导向内容中表现更具沉浸感。

相较于前两代,3.5 不仅关注"写得对",更关注"听起来好",因此更适合影视配乐、氛围音乐、品牌情绪音乐等对听感完成度要求更高的场景。

尤其在人声演唱方面,其在人声唱功、声线表现、人声音质以及唱词清晰度等维度上,都呈现出出色的人声质感。

* 数据统计截止 2025 年 5 月

实时率(RTF:Real-Time Factor)

值越低越快
Yue
12
Udio V1.5
1.48
Suno v4
0.84
Mureka v5.5
0.27
DiffRhythm v1.0
0.1
AceStep v1.0
0.063
Tempolor V3.0
0.02

120 秒音频推理耗时

单位:秒
Yue
1200
Udio V1.5
177
Suno v4
100
Mureka v5.5
32
DiffRhythm v1.0
12
AceStep v1.0
3.84
Tempolor V3.0
2.5
Tempolor V3.0 速度
行业领先的音乐生成商用模型
Tempolor V3.0 RTF 0.02
生成 2 分钟音乐,耗时 2.5 秒

* 基于 NVIDIA RTX 4090

Demo
十五运会 AI 主题曲官方主题曲
CinematicAnthem
36氪 WISE AI 主题曲大会主题曲
CinematicAnthem
熊出没宣传片
CinematicTrailer
旋转的洗衣机数字人MV
ElectronicMV
故乡的风与月
0:00 / 0:00
Chinese FolkBallad
街角のソノリティ
0:00 / 0:00
J-PopCity Pop
风过山岗
0:00 / 0:00
FolkAcoustic
听见星河
0:00 / 0:00
CinematicAmbient