Tempolor 3.5 - 技术研究

模型总览

扩散模型架构 · 2025.1

Tempolor 3.5

基于扩散模型与连续音乐音频表征，生成 44.1kHz 双声道高保真音乐。推理实时率低于 0.1，整曲生成速度达业界顶尖水平。

44.1kHz 双声道

Diffusion 架构

ControlNet 旋律控制

Inpaint / Repaint

RTF < 0.1

概述

Tempolor 3.5 基于扩散模型（Diffusion）与连续音乐音频表征，支持生成 44.1kHz、双声道高品质音乐。该版本在技术路线中，从偏重语义骨架建模的生成范式，进一步演进至以连续声学表征为核心的高保真音乐生成范式，显著提升了声音纹理、空间层次、动态表现以及整体听感的自然度与完成度。

Tempolor 3.5 通过引入 ControlNet、Inpaint / Repaint 等可控生成能力，进一步拓展了模型在旋律控制、歌词编辑、局部重绘等场景下的可编辑性与可控性，为更精细化的音乐创作与交互式编辑提供了技术基础。

在推理效率方面，实时率低于 0.1，整曲生成速度为业界顶尖水平。

模型表现

Tempolor 3.5 在细节听感和氛围表达上具备明显优势。模型能够更自然地恢复混响尾音、动态起伏、纹理层次与空间纵深，使生成结果在抒情、空灵、悬疑、史诗等情绪导向内容中表现更具沉浸感。

相较于前两代，3.5 不仅关注"写得对"，更关注"听起来好"，因此更适合影视配乐、氛围音乐、品牌情绪音乐等对听感完成度要求更高的场景。

尤其在人声演唱方面，其在人声唱功、声线表现、人声音质以及唱词清晰度等维度上，都呈现出出色的人声质感。

* 数据统计截止 2025 年 5 月

实时率（RTF：Real-Time Factor）

值越低越快

Yue

Udio V1.5

1.48

Suno v4

0.84

Mureka v5.5

0.27

DiffRhythm v1.0

0.1

AceStep v1.0

0.063

Tempolor V3.0

0.02

120 秒音频推理耗时

单位：秒

Yue

1200

Udio V1.5

177

Suno v4

100

Mureka v5.5

DiffRhythm v1.0

AceStep v1.0

3.84

Tempolor V3.0

2.5

Tempolor V3.0 速度

行业领先的音乐生成商用模型

Tempolor V3.0 RTF 0.02

生成 2 分钟音乐，耗时 2.5 秒

* 基于 NVIDIA RTX 4090

Demo

十五运会 AI 主题曲官方主题曲

CinematicAnthem

36氪 WISE AI 主题曲大会主题曲

CinematicAnthem

熊出没宣传片

CinematicTrailer

旋转的洗衣机数字人MV

ElectronicMV

故乡的风与月

0:00 / 0:00

Chinese FolkBallad

街角のソノリティ

0:00 / 0:00

J-PopCity Pop

风过山岗

0:00 / 0:00

FolkAcoustic

听见星河

0:00 / 0:00

CinematicAmbient