负责开源项目

我们一直在努力践行拥抱开源,坚信开放和共享的力量,尽最大可能开源实验室科研项目,回馈社区,共同推动技术的发展和进步。

2025

MMAR: 通用音频深度推理评测集
代码:https://github.com/ddlBoJack/MMAR MMAR
数据集: HuggingFace

emovoice: 自然语言描述的情感语音合成模型
代码: https://github.com/yanghaha0908/EmoVoice EmoVoice
模型: HuggingFace

MagiCodec: 单层高质量语音编码器
代码: https://github.com/Ereboas/MagiCodec MagiCodec
模型: HuggingFace

VietASR: 越南语语音识别模型
代码: https://github.com/zzasdf/VietASR VietASR
模型: HuggingFace

URO-Bench: 面向端到端语音对话的评测基准
代码: https://github.com/Ruiqi-Yan/URO-Bench URO-Bench
数据集: HuggingFace

muQ: 音乐信号通用表征模型
代码:https://github.com/tencent-ailab/MuQ MuQ
模型:MuQ-large, MuQ-MuLan-large
开源模型在HuggingFace总下载量超70万

2024

NDVQ: 鲁棒音频声码器
代码: https://github.com/ZhikangNiu/NDVQ NDVQ

SLAM-LLM: 音频大模型工具包
代码: https://github.com/X-LANCE/SLAM-LLM SLAM-LLM

F5-TTS: 基于流匹配的语音合成模型
代码: https://github.com/SWivid/F5-TTS F5-TTS
模型: https://huggingface.co/SWivid/F5-TTS
试用: https://huggingface.co/spaces/mrfakename/E2-F5-TTS
开源模型在HuggingFace总下载量超800万

EmoBox: 多语言通用语音情感评测工具包
代码:https://github.com/emo-box/EmoBox EmoBox

Gigaspeech 2: 小语种(越南语、印尼语和泰语)语音识别数据集
代码:https://github.com/SpeechColab/GigaSpeech2 GigaSpeech2
数据集: ModelScope | HuggingFace
开源数据集在HuggingFace和ModelSope总下载超5万

emotion2vec: 通用语音情感表征模型
代码:https://github.com/ddlBoJack/emotion2vec emotion2vec
模型: emotion2vec_plus_large | emotion2vec_base_finetuned | emotion2vec_base
开源模型在ModelScope总下载量超140万

EAT: 音频信号通用表征模型
代码:https://github.com/cwx-worst-one/EAT EAT
模型: HuggingFace

2023

FastHuBERT: 高效语音自监督学习
代码: https://github.com/yanghaha0908/FastHuBERT FastHuBERT

MT4SSL: 语音自监督模型
代码: https://github.com/ddlBoJack/MT4SSL MT4SSL

Text2Animation:
代码: https://github.com/Moon0316/T2A Text2Animation

参与开源项目

FISHER: 工业声学信号基础模型
代码: https://github.com/jianganbai/FISHER FISHER

Spark-TTS: 基于大语言模型的语音合成模型
代码: https://github.com/SparkAudio/Spark-TTS Spark-TTS

YuE: 开源音乐合成模型
代码: https://github.com/multimodal-art-projection/YuE YuE

AniTalker: 数字人生成模型
代码: https://github.com/X-LANCE/AniTalker AniTalker

StoryTTS: 基于评书的中文高表现力语音合成数据集
代码: https://github.com/X-LANCE/StoryTTS StoryTTS

VoiceFlow-TTS: 基于Rectified Flow的高效语音合成模型
代码: https://github.com/X-LANCE/VoiceFlow-TTS VoiceFlow-TTS