负责开源项目
我们一直在努力践行拥抱开源,坚信开放和共享的力量,尽最大可能开源实验室科研项目,回馈社区,共同推动技术的发展和进步。
2025
MMAR: 通用音频深度推理评测集
代码:https://github.com/ddlBoJack/MMAR
数据集: HuggingFace
emovoice: 自然语言描述的情感语音合成模型
代码: https://github.com/yanghaha0908/EmoVoice
模型: HuggingFace
MagiCodec: 单层高质量语音编码器
代码: https://github.com/Ereboas/MagiCodec
模型: HuggingFace
VietASR: 越南语语音识别模型
代码: https://github.com/zzasdf/VietASR![]()
模型: HuggingFace
URO-Bench: 面向端到端语音对话的评测基准
代码: https://github.com/Ruiqi-Yan/URO-Bench
数据集: HuggingFace
muQ: 音乐信号通用表征模型
代码:https://github.com/tencent-ailab/MuQ![]()
模型:MuQ-large, MuQ-MuLan-large
开源模型在HuggingFace总下载量超70万次
2024
NDVQ: 鲁棒音频声码器
代码: https://github.com/ZhikangNiu/NDVQ
SLAM-LLM: 音频大模型工具包
代码: https://github.com/X-LANCE/SLAM-LLM
F5-TTS: 基于流匹配的语音合成模型
代码: https://github.com/SWivid/F5-TTS![]()
模型: https://huggingface.co/SWivid/F5-TTS
试用: https://huggingface.co/spaces/mrfakename/E2-F5-TTS
开源模型在HuggingFace总下载量超800万次
EmoBox: 多语言通用语音情感评测工具包
代码:https://github.com/emo-box/EmoBox
Gigaspeech 2: 小语种(越南语、印尼语和泰语)语音识别数据集
代码:https://github.com/SpeechColab/GigaSpeech2
数据集: ModelScope | HuggingFace
开源数据集在HuggingFace和ModelSope总下载超5万次
emotion2vec: 通用语音情感表征模型
代码:https://github.com/ddlBoJack/emotion2vec
模型: emotion2vec_plus_large | emotion2vec_base_finetuned | emotion2vec_base
开源模型在ModelScope总下载量超140万次
EAT: 音频信号通用表征模型
代码:https://github.com/cwx-worst-one/EAT
模型: HuggingFace
2023
FastHuBERT: 高效语音自监督学习
代码: https://github.com/yanghaha0908/FastHuBERT
MT4SSL: 语音自监督模型
代码: https://github.com/ddlBoJack/MT4SSL
Text2Animation:
代码: https://github.com/Moon0316/T2A
参与开源项目
FISHER: 工业声学信号基础模型
代码: https://github.com/jianganbai/FISHER
Spark-TTS: 基于大语言模型的语音合成模型
代码: https://github.com/SparkAudio/Spark-TTS
YuE: 开源音乐合成模型
代码: https://github.com/multimodal-art-projection/YuE
AniTalker: 数字人生成模型
代码: https://github.com/X-LANCE/AniTalker
StoryTTS: 基于评书的中文高表现力语音合成数据集
代码: https://github.com/X-LANCE/StoryTTS
VoiceFlow-TTS: 基于Rectified Flow的高效语音合成模型
代码: https://github.com/X-LANCE/VoiceFlow-TTS