音频语言模型的少样本学习能力
具备少样本学习能力的先进音频语言模型。 MiMo-Audio-7B-Instruct集成思维机制,在音频理解、对话生成和指令TTS方面达到SOTA性能。
探索MiMo-Audio音频语言模型的先进能力
集成思维机制的指令调优模型。 在音频理解、语音对话和指令TTS评估中达到开源SOTA性能。
在多样化音频任务中展现出色的少样本学习能力。 基于超过1亿小时音频数据训练,具备卓越的泛化能力。
12亿参数的Transformer,25Hz工作频率,8层RVQ堆栈。 针对卓越的重建质量和下游建模进行优化。
结合补丁编码器、大语言模型和补丁解码器的先进多模态架构
将连续的RVQ令牌聚合为补丁,下采样至6.25Hz以实现高效的LLM处理
70亿参数模型,具备指令调优和思维机制,实现卓越性能
通过延迟生成方案自回归生成完整的25Hz RVQ令牌序列
适用于多样化音频处理任务的强大能力
深度理解复杂音频内容和上下文
高质量的对话音频合成
基于指令控制的文本转语音
先进的语音变换和风格迁移
关于MiMo-Audio功能和使用的常见问题
MiMo-Audio是由小米MiMo团队开发的音频语言模型系列。它具有少样本学习能力, 包括MiMo-Audio-7B-Instruct,集成了思维机制,在音频理解、对话生成和指令式文本转语音方面表现卓越。
MiMo-Audio-7B-Instruct在多个音频任务中表现出色,包括音频理解(理解复杂音频内容)、 对话生成(创建自然的对话音频)、指令TTS(基于指令的文本转语音控制)和语音转换(高级语音变换和风格迁移)。
MiMo-Audio-Tokenizer是一个12亿参数的Transformer,以25Hz频率运行,采用8层RVQ(残差向量量化)堆栈。 它针对卓越的重建质量进行了优化,为下游音频建模任务提供基础。
MiMo-Audio在多样化音频任务中展现出新兴的少样本学习能力。通过超过1亿小时音频数据的训练, 该模型能够以最少的示例泛化到新任务,使其在各种音频处理应用中具有高度适应性。
MiMo-Audio采用多模态架构,结合三个关键组件:将RVQ令牌聚合为补丁的补丁编码器(下采样至6.25Hz), 具有指令调优和思维机制的70亿参数大语言模型,以及自回归生成完整25Hz RVQ令牌序列的补丁解码器。
MiMo-Audio模型可在Hugging Face上获取,包括MiMo-Audio-7B-Instruct、MiMo-Audio-7B-Base和MiMo-Audio-Tokenizer。 您还可以在官方GitHub仓库中找到源代码、文档和评估工具包。 在VibeVoice.info试用交互式演示。