交互式Demo

通过我们的在线交互Demo体验MiMo-Audio的强大能力

VibeVoice.info: 免费在线播客生成&语音克隆

核心特性

探索MiMo-Audio音频语言模型的先进能力

MiMo-Audio-7B-Instruct

集成思维机制的指令调优模型。在音频理解、语音对话和指令TTS评估中达到开源SOTA性能。

指令调优与思维机制
开源SOTA性能表现
音频理解与对话生成

少样本学习

在多样化音频任务中展现出色的少样本学习能力。基于超过1亿小时音频数据训练，具备卓越的泛化能力。

1亿+小时预训练数据
涌现的少样本能力
卓越的任务泛化

MiMo-Audio-Tokenizer

12亿参数的Transformer，25Hz工作频率，8层RVQ堆栈。针对卓越的重建质量和下游建模进行优化。

12亿参数，25Hz工作频率
8层RVQ堆栈架构
卓越的重建质量

技术架构

结合补丁编码器、大语言模型和补丁解码器的先进多模态架构

多模态设计

补丁编码器

将连续的RVQ令牌聚合为补丁，下采样至6.25Hz以实现高效的LLM处理

大语言模型

70亿参数模型，具备指令调优和思维机制，实现卓越性能

补丁解码器

通过延迟生成方案自回归生成完整的25Hz RVQ令牌序列

关键规格

模型规模 70亿参数

分词器 12亿参数

工作频率 25 Hz

RVQ层数 8层

训练数据 1亿+小时

应用场景

适用于多样化音频处理任务的强大能力

音频理解

深度理解复杂音频内容和上下文

对话生成

高质量的对话音频合成

指令TTS

基于指令控制的文本转语音

语音转换

先进的语音变换和风格迁移

常见问题

关于MiMo-Audio功能和使用的常见问题

什么是MiMo-Audio？

MiMo-Audio是由小米MiMo团队开发的音频语言模型系列。它具有少样本学习能力，包括MiMo-Audio-7B-Instruct，集成了思维机制，在音频理解、对话生成和指令式文本转语音方面表现卓越。

MiMo-Audio-7B-Instruct的核心能力有哪些？

MiMo-Audio-7B-Instruct在多个音频任务中表现出色，包括音频理解（理解复杂音频内容）、对话生成（创建自然的对话音频）、指令TTS（基于指令的文本转语音控制）和语音转换（高级语音变换和风格迁移）。

什么是MiMo-Audio-Tokenizer？

MiMo-Audio-Tokenizer是一个12亿参数的Transformer，以25Hz频率运行，采用8层RVQ（残差向量量化）堆栈。它针对卓越的重建质量进行了优化，为下游音频建模任务提供基础。

少样本学习能力是如何工作的？

MiMo-Audio在多样化音频任务中展现出新兴的少样本学习能力。通过超过1亿小时音频数据的训练，该模型能够以最少的示例泛化到新任务，使其在各种音频处理应用中具有高度适应性。

MiMo-Audio的技术架构是什么？

MiMo-Audio采用多模态架构，结合三个关键组件：将RVQ令牌聚合为补丁的补丁编码器（下采样至6.25Hz），具有指令调优和思维机制的70亿参数大语言模型，以及自回归生成完整25Hz RVQ令牌序列的补丁解码器。

如何访问MiMo-Audio模型？

MiMo-Audio模型可在Hugging Face上获取，包括MiMo-Audio-7B-Instruct、MiMo-Audio-7B-Base和MiMo-Audio-Tokenizer。您还可以在官方GitHub仓库中找到源代码、文档和评估工具包。在VibeVoice.info试用交互式演示。

准备体验MiMo-Audio了吗？

探索具备少样本学习能力的先进音频语言模型

体验在线Demo 查看文档