Tempolor 3.5 — 技術研究

モデル一覧

拡散モデルアーキテクチャ · 2025.1

Tempolor 3.5

拡散モデルと連続的な音楽音声表現に基づき、44.1kHzステレオの高忠実度音楽を生成。推論のリアルタイムファクターは0.1未満で、楽曲全体の生成速度は業界トップクラスです。

44.1kHzステレオ

Diffusionアーキテクチャ

ControlNetメロディ制御

Inpaint / Repaint

RTF < 0.1

概要

Tempolor 3.5 は拡散モデル（Diffusion）と連続的な音楽音声表現に基づき、44.1kHzステレオの高品質な音楽生成に対応します。このバージョンは技術ロードマップにおいて、意味的な骨格のモデリングを重視するパラダイムから、連続的な音響表現を中核とする高忠実度の音楽生成パラダイムへとさらに進化し、音のテクスチャ、空間的な階層、ダイナミクス、そして全体的な聴感の自然さと完成度を大幅に向上させました。

Tempolor 3.5 はControlNetやInpaint / Repaintなどの制御可能な生成機能を導入することで、メロディ制御、歌詞編集、部分的な再描画といったシーンでの編集性と制御性をさらに広げ、より精緻な音楽制作とインタラクティブな編集に技術的基盤を提供します。

推論効率の面では、リアルタイムファクターは0.1未満で、楽曲全体の生成速度は業界トップクラスです。

モデル性能

Tempolor 3.5 は、細部の聴感と雰囲気の表現において明確な優位性を持っています。リバーブの残響、ダイナミックな起伏、テクスチャの階層、空間的な奥行きをより自然に再現し、叙情的、幻想的、サスペンス、壮大といった感情主導のコンテンツで、より没入感のある結果を実現します。

前の2世代と比べ、3.5は「正しく書く」だけでなく「良く聴こえる」ことにも注力しており、映像音楽、アンビエント音楽、ブランドのムード音楽など、聴感の完成度がより求められるシーンに適しています。

特にボーカルの歌唱において、歌唱力、声質の表現、ボーカルの音質、歌詞の明瞭さといった各次元で、優れたボーカルの質感を示します。

※ データは2025年5月時点

リアルタイムファクター（RTF）

値が小さいほど高速

Yue

Udio V1.5

1.48

Suno v4

0.84

Mureka v5.5

0.27

DiffRhythm v1.0

0.1

AceStep v1.0

0.063

Tempolor V3.0

0.02

120秒の音声の推論時間

単位：秒

Yue

1200

Udio V1.5

177

Suno v4

100

Mureka v5.5

DiffRhythm v1.0

AceStep v1.0

3.84

Tempolor V3.0

2.5

Tempolor V3.0 速度

業界をリードする商用音楽生成モデル

Tempolor V3.0 RTF 0.02

2分の音楽を2.5秒で生成

※ NVIDIA RTX 4090に基づく

Demo

第15回全国運動会AIテーマソング公式テーマソング

CinematicAnthem

36Kr WISE AIテーマソングカンファレンステーマソング

CinematicAnthem

Boonie Bears予告編

CinematicTrailer

回転する洗濯機デジタルヒューマンMV

ElectronicMV

故郷の風と月

0:00 / 0:00

Chinese FolkBallad

街角のソノリティ

0:00 / 0:00

J-PopCity Pop

丘を越える風

0:00 / 0:00

FolkAcoustic

星河を聴く

0:00 / 0:00

CinematicAmbient