
Tempolor 4.6은 Tempolor의 현행 플래그십급 음악 생성 모델입니다. 아키텍처 측면에서는 이전 모델 버전을 기반으로 보틀넥을 재개발했습니다. 생성 패러다임은 실제 음악 창작과 일치하며, 음악성 Codec, 음악 의미 Codec, 음악 음향 Codec이라는 계층적이고 점진적인 표현 체계를 통해 48kHz 스테레오 고품질 음악을 생성합니다.
이 버전은 음악 생성을 서로 다른 수준의 표현 학습·생성 작업으로 분해하여 거친 단계에서 세밀한 단계로 이어지는 Coarse-to-Fine 구조적 생성을 실현합니다. 고수준은 음악성과 구조 조직, 중수준은 의미와 내용 표현, 저수준은 음향 디테일과 고충실도 복원을 담당합니다. 이는 현재 주류 패러다임인 "고수준 의미에서 세밀한 음향으로"라는 계층적 생성 경로를 구현하여 음악성과 음질의 균형을 맞춥니다.
제어성 측면에서는 일반 생성 외에도 정밀 리믹스 재작성, 세밀한 오디오 편집 등의 기능을 지원합니다.
Tempolor 4.6은 장시간 구조 설계, 가사 수용력, 음질 충실도 사이에서 더욱 참고할 만한 균형을 확립했습니다. 다층 Codec의 협력과 LLM의 장거리 조직 능력 덕분에 긴 생성 구간에서도 주제 모티프의 일관성과 감정의 통일을 유지할 수 있습니다.
이 버전은 드럼, 베이스, 하모니, 보컬 표현에서 더욱 뚜렷한 계층감과 공간 분리를 보여주며, 구조적으로 완성도 높은 틀을 구축할 뿐만 아니라 청감 디테일에서도 성숙한 납품 기준에 가까워졌습니다.
특히 느린 템포의 편안한 스타일을 다룰 때 모델의 감정 표현과 편곡 질감이 매우 섬세하여, 브랜드 테마 음악, 상용급 샘플 곡, 복잡한 가사 제작에 현행 Tempolor 시리즈 중 최고의 솔루션을 제공합니다.
중국어·영어 테스트셋(각 30건, 총 60건)을 기반으로 Mureka v9, Suno v5.5, MiniMax V2.6과 비교하며 Meta Audiobox Aesthetics와 SongEval 두 평가 체계를 다룹니다.
| 모델 | CE↑ 콘텐츠 즐거움 | CU↑ 콘텐츠 유용성 | PC↑ 제작 복잡도 | PQ↑ 제작 품질 |
|---|---|---|---|---|
| Tempolor v4.6 | 7.7251 | 7.9596 | 6.2263 | 8.3291 |
| Suno v5.5 | 7.7156 | 7.9949 | 6.3399 | 8.3184 |
| Mureka v9 | 7.6324 | 7.8275 | 6.5859 | 8.1604 |
| MiniMax V2.6 | 7.6872 | 7.9131 | 6.4197 | 8.2175 |
| 모델 | Musicality↑ 음악성 | Coherence↑ 일관성 | Naturalness↑ 자연스러움 | Memorability↑ 기억에 남는 정도 | Clarity↑ 명료성 |
|---|---|---|---|---|---|
| Tempolor v4.6 | 4.4419 | 4.5639 | 4.3438 | 4.5710 | 4.4458 |
| Suno v5.5 | 4.3616 | 4.4814 | 4.2565 | 4.4885 | 4.3634 |
| Mureka v9 | 4.4763 | 4.5928 | 4.4167 | 4.5873 | 4.4523 |
| MiniMax V2.6 | 4.2315 | 4.3668 | 4.1447 | 4.3463 | 4.2244 |
120초 음악 오디오 생성 시간 비교 (Nvidia L20 GPU 추론)