
Tempolor 4.6 はTempolorの現行の旗艦級音楽生成モデルです。アーキテクチャ面では、これまでのモデルバージョンを基にボトルネックを再開発しました。生成パラダイムは実際の音楽制作と整合し、音楽性Codec、音楽意味Codec、音楽音響Codecという階層的かつ漸進的な表現体系を通じて、48kHzステレオの高品質な音楽を生成します。
このバージョンは音楽生成を異なるレベルの表現学習・生成タスクに分解し、粗から細へのCoarse-to-Fineな構造的生成を実現します。高レベルは音楽性と構造の組織化、中レベルは意味と内容の表現、低レベルは音響の細部と高忠実度の再現を担います。これは現在の主流パラダイムである「高レベルの意味から細粒度の音響へ」という階層的生成経路を体現し、音楽性と音質のバランスを取ります。
制御性の面では、通常の生成に加えて、精密なリミックス改変、細粒度オーディオ編集などの機能にも対応します。
Tempolor 4.6 は、長時間の構造設計、歌詞の収容力、音質の忠実度の間で、より参考価値の高いバランスを確立しています。多層Codecの連携とLLMの長距離組織能力により、長い生成スパンにわたってテーマモチーフの一貫性と感情の統一を維持できます。
このバージョンは、ドラム、ベース、ハーモニー、ボーカルの表現において、より明確な階層感と空間的分離を示し、構造的に完成度の高い枠組みを構築するだけでなく、聴感の細部においても成熟した納品基準に近づいています。
特にスローテンポやリラックス系の曲調を扱う際、モデルの感情表現と編曲の質感はとりわけ繊細で、ブランドテーマ音楽、商用級のサンプル曲、複雑な歌詞の制作に対して、現行のTempolorシリーズで最良のソリューションを提供します。
中国語・英語のテストセット(各30件、計60件)に基づき、Mureka v9、Suno v5.5、MiniMax V2.6と比較し、Meta Audiobox AestheticsとSongEvalの2つの評価体系を対象としています。
| モデル | CE↑ コンテンツの楽しさ | CU↑ コンテンツの有用性 | PC↑ 制作の複雑さ | PQ↑ 制作品質 |
|---|---|---|---|---|
| Tempolor v4.6 | 7.7251 | 7.9596 | 6.2263 | 8.3291 |
| Suno v5.5 | 7.7156 | 7.9949 | 6.3399 | 8.3184 |
| Mureka v9 | 7.6324 | 7.8275 | 6.5859 | 8.1604 |
| MiniMax V2.6 | 7.6872 | 7.9131 | 6.4197 | 8.2175 |
| モデル | Musicality↑ 音楽性 | Coherence↑ 一貫性 | Naturalness↑ 自然さ | Memorability↑ 印象に残りやすさ | Clarity↑ 明瞭さ |
|---|---|---|---|---|---|
| Tempolor v4.6 | 4.4419 | 4.5639 | 4.3438 | 4.5710 | 4.4458 |
| Suno v5.5 | 4.3616 | 4.4814 | 4.2565 | 4.4885 | 4.3634 |
| Mureka v9 | 4.4763 | 4.5928 | 4.4167 | 4.5873 | 4.4523 |
| MiniMax V2.6 | 4.2315 | 4.3668 | 4.1447 | 4.3463 | 4.2244 |
120秒の音楽音声の生成時間の比較(Nvidia L20 GPUでの推論)