AR-Omni:纯自回归架构实现图文语音统一生成,让模型更"纯粹"

论文标题:AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

核心要点:AR-Omni 探索出一条大道至简的技术路线,仅用一个纯粹的自回归解码器,就实现了对文本、图像、语音三种模态的“任意输入、任意输出”生成,并且在语音合成上达到了实时流式效果,告别了繁杂的“外部专家模型”依赖。

关键结论

1、提出一个纯粹的统一自回归模型:首次证明了无需任何外部专家解码器(特别是扩散模型),仅凭一个自回归模型就能同时处理文本、图像和语音的理解与生成。

2、实现高效的流式语音生成:采用了一种高效的语音 tokenizer,使得模型只需生成少量 token 即可开始解码播放音频,从而实现了低延迟的流式语音交互。

3、解决三大实践难题:通过任务感知的损失加权解决了模态不平衡问题;通过轻量级的感知损失提升了图像生成质量;通过有限状态解码机制平衡了不同任务对生成稳定性和创造性的需求。
#大模型##多模态##Agent#
全部评论

相关推荐

04-13 09:56
已编辑
嵌入式工程师
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务