MiMo-Audio

音频语言模型的少样本学习能力

具备少样本学习能力的先进音频语言模型。 MiMo-Audio-7B-Instruct集成思维机制,在音频理解、对话生成和指令TTS方面达到SOTA性能。

交互式Demo

通过我们的在线交互Demo体验MiMo-Audio的强大能力

核心特性

探索MiMo-Audio音频语言模型的先进能力

MiMo-Audio-7B-Instruct

集成思维机制的指令调优模型。 在音频理解、语音对话和指令TTS评估中达到开源SOTA性能。

  • 指令调优与思维机制
  • 开源SOTA性能表现
  • 音频理解与对话生成

少样本学习

在多样化音频任务中展现出色的少样本学习能力。 基于超过1亿小时音频数据训练,具备卓越的泛化能力。

  • 1亿+小时预训练数据
  • 涌现的少样本能力
  • 卓越的任务泛化

MiMo-Audio-Tokenizer

12亿参数的Transformer,25Hz工作频率,8层RVQ堆栈。 针对卓越的重建质量和下游建模进行优化。

  • 12亿参数,25Hz工作频率
  • 8层RVQ堆栈架构
  • 卓越的重建质量

技术架构

结合补丁编码器、大语言模型和补丁解码器的先进多模态架构

多模态设计

补丁编码器

将连续的RVQ令牌聚合为补丁,下采样至6.25Hz以实现高效的LLM处理

大语言模型

70亿参数模型,具备指令调优和思维机制,实现卓越性能

补丁解码器

通过延迟生成方案自回归生成完整的25Hz RVQ令牌序列

关键规格

模型规模 70亿参数
分词器 12亿参数
工作频率 25 Hz
RVQ层数 8层
训练数据 1亿+小时

应用场景

适用于多样化音频处理任务的强大能力

音频理解

深度理解复杂音频内容和上下文

对话生成

高质量的对话音频合成

指令TTS

基于指令控制的文本转语音

语音转换

先进的语音变换和风格迁移

常见问题

关于MiMo-Audio功能和使用的常见问题

什么是MiMo-Audio?

MiMo-Audio是由小米MiMo团队开发的音频语言模型系列。它具有少样本学习能力, 包括MiMo-Audio-7B-Instruct,集成了思维机制,在音频理解、对话生成和指令式文本转语音方面表现卓越。

MiMo-Audio-7B-Instruct的核心能力有哪些?

MiMo-Audio-7B-Instruct在多个音频任务中表现出色,包括音频理解(理解复杂音频内容)、 对话生成(创建自然的对话音频)、指令TTS(基于指令的文本转语音控制)和语音转换(高级语音变换和风格迁移)。

什么是MiMo-Audio-Tokenizer?

MiMo-Audio-Tokenizer是一个12亿参数的Transformer,以25Hz频率运行,采用8层RVQ(残差向量量化)堆栈。 它针对卓越的重建质量进行了优化,为下游音频建模任务提供基础。

少样本学习能力是如何工作的?

MiMo-Audio在多样化音频任务中展现出新兴的少样本学习能力。通过超过1亿小时音频数据的训练, 该模型能够以最少的示例泛化到新任务,使其在各种音频处理应用中具有高度适应性。

MiMo-Audio的技术架构是什么?

MiMo-Audio采用多模态架构,结合三个关键组件:将RVQ令牌聚合为补丁的补丁编码器(下采样至6.25Hz), 具有指令调优和思维机制的70亿参数大语言模型,以及自回归生成完整25Hz RVQ令牌序列的补丁解码器。

如何访问MiMo-Audio模型?

MiMo-Audio模型可在Hugging Face上获取,包括MiMo-Audio-7B-Instruct、MiMo-Audio-7B-Base和MiMo-Audio-Tokenizer。 您还可以在官方GitHub仓库中找到源代码、文档和评估工具包。 在VibeVoice.info试用交互式演示。

准备体验MiMo-Audio了吗?

探索具备少样本学习能力的先进音频语言模型