Publication

You can also find my updated publications on my Google Scholar profile.

2026

Ziyang Ma, Ruiyang Xu, Yinghao Ma, Chao-Han Huck Yang, Bohan Li, Jaeyeon Kim, Jin Xu, Jinyu Li, Carlos Busso, Kai Yu, Eng Siong Chng, Xie Chen. “The Interspeech 2026 Audio Reasoning Challenge: Evaluating Reasoning Process Quality for Audio Reasoning Models and Agents”. In Proc. INTERSPEECH, 2026
Zhikang Niu, Shujie Hu, Jeongsoo Choi, Yushen Chen, Peining Chen, Pengcheng Zhu, Yunting Yang, Bowen Zhang, Jian Zhao, Chunhui Wang, Xie Chen. “Semantic-VAE: Semantic-Alignment Latent Representation for Better Speech Synthesis”. In Proc. INTERSPEECH, 2026
Yuezhang Peng, Chonghao Cai, Ziang Liu, Shuai Fan, Sheng Jiang, Hua Xu, Yuxin Liu, Qiguang Chen, Kele Xu, Yao Li, Sheng Wang, Libo Qin, Xie Chen. “MAC-SLU: Multi-Intent Automotive Cabin Spoken Language Understanding Benchmark”. In Proc. INTERSPEECH, 2026
Wenbin Huang, Yuhang Qiu, Bohan Li, Yiwei Guo, Jing Peng, Hankun Wang, Xie Chen, Kai Yu. “RAS: a Reliability Oriented Metric for Automatic Speech Recognition”. In Proc. INTERSPEECH, 2026
Wenhao Guan, Zhikang Niu, Ziyue Jiang, Kaidi Wang, Peijie Chen, Qingyang Hong, Lin Li, Xie Chen. “UniVoice: Unifying Autoregressive ASR and Flow-Matching based TTS with Large Language Models”. In Proc. INTERSPEECH, 2026
Xiquan Li, Junxi Liu, Wenxi Chen, Haina Zhu, Ziyang Ma, Xie Chen. “Resonate: Reinforcing Text-to-Audio Generation via Online Feedback from Large Audio Language Models”. In Proc. INTERSPEECH, 2026
Wenming Tu, Jian Gao, Yanru Huo, Yixuan Wang, Jing Peng, Bohan Li, Ziyang Ma, Tao Liu, Shuai Fan, Kai Yu, Xie Chen, Zilong Zheng. “VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track”. In Proc. INTERSPEECH, 2026
Yuhang Dai, Haopeng Lin, Jiale Qian, Ruiqi Yan, Hao Meng, Hanke Xie, Hanlin Wen, Shunshun Yin, Ming Tao, Xie Chen, Lei Xie, Xinsheng Wang. “Joint Learning Global-Local Speaker Classification to Enhance End-to-End Speaker Diarization and Recognition”. In Proc. INTERSPEECH, 2026
Zhihan Li, Hankun Wang, Yiwei Guo, Bohan Li, Xie Chen, Kai Yu. “Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepance”. In Proc. INTERSPEECH, 2026
Pingyi Fan, Anbai Jiang, Shuwei Zhang, Zhiqiang Lv, Bing Han, Xinhu Zheng, Wenrui Liang, Junjie Li, Wei-Qiang Zhang, Yanmin Qian, Xie Chen, Cheng Lu, Jia Liu. “Fisher: A foundation model for multi-modal industrial signal comprehensive representation”. In IEEE Transactions on Industrial Informatics, 2026
Yunchong Xiao, Yuxiang Zhao, Ziyang Ma, Shuai Wang, Kai Yu, Jiachun Liao, Xie Chen. “Anonymization, Not Elimination: Utility-Preserved Speech Anonymization”. In IEEE TASLP, 2026
Yexing Du, Kaiyuan Liu, Youcheng Pan, Bo Yang, Keqi Deng, Xie Chen, Yang Xiang, Ming Liu, Bing Qin, YaoWei Wang. “MCAT: Scaling Many-to-Many Speech-to-Text Translation with MLLMs to 70 Languages”. In IEEE TASLP, 2026
Xiquan Li, junxi liu, Yuzhe Liang, Zhikang Niu, Wenxi Chen, Xie Chen. “MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows”. In Proc. ACL, 2026
Xiquan Li, Xuenan Xu, Ziyang Ma, Wenxi Chen, Haolin He, Qiuqiang Kong, Xie Chen. “FineLAP: Taming Heterogeneous Supervision for Fine-grained Language-Audio Pretraining”. In Prc. ACL, 2026
Tianrui Wang, Ziyang Ma, Yizhou Peng, Haoyu Wang, Zhikang Niu, Zikang Huang, Yihao Wu, Yi-Wen Chao, Yu Jiang, Yuheng Lu, Guanrou Yang, Xuanchen Li, Hexin Liu, Chunyu Qiang, Cheng Gong, Yifan Yang, Tianchi Liu, Junyu Wang, Nana Hou, Meng Ge, Fuming You, Yang Wei, Zhongqian Sun, Hu Haifeng, Xiaobao Wang, Eng Siong Chng, Xie Chen, Longbiao Wang, Jianwu Dang. “Evaluating the Expressive Appropriateness of Speech in Rich Contexts”. In Proc. ACL, 2026
Yifan Yang, Bing Han, Hui Wang, Wei Wang, Ziyang Ma, Long Zhou, Zengrui Jin, Guanrou Yang, Tianrui Wang, Xu Tan, Xie Chen. “Towards Fine-Grained and Multi-Granular Contrastive Language-Speech Pre-training”. In Proc. ACL, 2026
Wenxi Chen, Ruiqi Yan, Yushen CHEN, Zhikang Niu, Ziyang Ma, Xiquan Li, Yuzhe Liang, Wenhanlin, Shunshun Yin, Ming Tao, Xinsheng Wang, Xie Chen. “SAC: Neural Speech Codec with Semantic-Acoustic Dual-Stream Quantization”. In Proc. ACL, 2026
Chenyuan Zhang, Qiguang Chen, Xie Chen, Zhuotao Tian, Bowen Xing, Meishan Zhang, Libo Qin, Baotian Hu, Min Zhang. “Less Languages, Less Tokens: An Efficient Unified Logic Cross-lingual Chain-of-Thought Reasoning Framework”. In Proc. ACL, 2026
Haitao Li, Chunxiang Jin, Chenglin Li, Wenhao Guan, Zhengxing Huang, Xie Chen. “ReStyle-TTS: Relative and Continuous Style Control for Zero-Shot Speech Synthesis”. In Findings of ACL, 2026
Ziyang Ma, Guanrou Yang, Wenxi Chen, Zhifu Gao, Yexing Du, Xiquan Li, Zhisheng Zheng, Haina Zhu, Jianheng Zhuo, Zheshu Song, Ruiyang Xu, Tiranrui Wang, Yifan Yang, Yanqiao Zhu, Zhikang Niu, Liumeng Xue, Yinghao Ma, Ruibin Yuan, Shiliang Zhang, Kai Yu, Eng Siong Chng, Xie Chen. “SLAM-LLM: A Modular, Open-Source Multimodal Large Language Model Framework and Best Practice for Speech, Language, Audio and Music Processing”. In IEEE Journal of Selected Topics in Signal Processing, 2026.
Ziyang Ma, Ruiyang Xu, Zhenghao Xing, Yunfei Chu, Yuxuan Wang, Jinzheng He, Jin Xu, Pheng-Ann Heng, Kai Yu, Junyang Lin, Eng Siong Chng, Xie Chen. “Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception”. In Proc. ICLR, 2026
Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, et. al. “Yue: Scaling open foundation models for long-form music generation”. In Proc. ICLR, 2026
Haolin He, Xingjian Du, Renhe Sun, Zheqi Dai, Yujia Xiao, Mingru Yang, Jiayi Zhou, Xiquan Li, Zhengxi Liu, Zining Liang, Chunyat Wu, Qianhua He, Tan Lee, Xie Chen, Wei-Long Zheng, Weiqiang Wang, Mark Plumbley, Jian Liu, Qiuqiang Kong. “Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models”. In Proc. ICLR, 2026
Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang. “Star-bench: Probing deep spatio-temporal reasoning as audio 4d intelligence”. In Proc. ICLR, 2026
Pengchao Feng, Yao Xiao, Ziyang Ma, Zhikang Niu, Shuai Fan, Yao Li, Sheng Wang, Xie Chen. “Task Vector in TTS: Toward Emotionally Expressive Dialectal Speech Synthesis”. In Proc. ICASSP, 2026
Yushen Chen, Kai Hu, Long Zhou, Shulin Feng, Xusheng Yang, Hangting Chen, Xie Chen. “AUV: Teaching Audio Universal Vector Quantization with Single Nested Codebook”, In Proc. ICASSP, 2026
Yifan Yang, Bing Han, Hui Wang, Long Zhou, Wei Wang, Mingyu Cui, Xu Tan, Xie Chen. “Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration”, In Proc. ICASSP, 2026
Qingyu Liu, Yushen Chen, Zhikang Niu, Chunhui Wang, Yunting Yang, Bowen Zhang, Jian Zhao, Pengcheng Zhu, Kai Yu, Xie Chen. “Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis”. In Proc. ICASSP, 2026
Bohan Li, Wenbin Huang, Yuhang Qiu, Yiwei Guo, Hankun Wang, Zhihan Li, Jing Peng, Ziyang Ma, Xie Chen, Kai Yu. “ISA-Bench: Benchmarking instruction sensitivity for large audio language models”. In Proc. ICASSP, 2026
Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen, Kai Yu. “AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions”. In Proc. AAAI, 2026
Xiaoqian Liu, Xiyan Gui, Zhengkun Ge, Yuan Ge, Chang Zou, Jiacheng Liu, Zhikang Niu, Qixi Zheng, Chen Xu, Xie Chen, Tong Xiao, JingBo Zhu, Linfeng Zhang. “WaveEx: Accelerating Flow Matching-based Speech Generation via Wavelet-guided Extrapolation”. In Proc. AAAI, 2026

2025

Yiwei Guo, Zhihan Li, Hankun Wang, Bohan Li, Chongtian Shao, Hanglei Zhang, Chenpeng Du, Xie Chen, Shujie Liu, Kai Yu. “Recent advances in discrete speech tokens: A review”. In IEEE TPAMI, 2025.
Haina Zhu, Yizhi Zhou, Hangting Chen, Jianwei Yu, Ziyang Ma, Rongzhi Gu, Yi Luo, Wei Tan, Xie Chen. “MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization”. In IEEE/ACM TASLP, 2025.
Tianrui Wang, Haoyu Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Ziyang Ma, Zikang Huang, Guanrou Yang, Xiaobao Wang, Eng Siong Chng, Xie Chen, Longbiao Wang, Jianwu Dang. “Word-Level Emotional Expression Control in Zero-Shot Text-to-Speech Synthesis”. In Proc. NeurIPS, 2025.
Ziyang Ma, Yinghao Ma, Yanqiao Zhu, Chen Yang, Yi-Wen Chao, Ruiyang Xu, Wenxi Chen, Yuanzhe Chen, Zhuo Chen, Jian Cong, Kai Li, Keliang Li, Siyou Li, Xinfeng Li, Xiquan Li, Zheng Lian, Yuzhe Liang, Minghao Liu, Zhikang Niu, Tianrui Wang, Yuping Wang, Yuxuan Wang, Yihao Wu, Guanrou Yang, Jianwei Yu, Ruibin Yuan, Zhisheng Zheng, Ziya Zhou, Haina Zhu, Wei Xue, Emmanouil Benetos, Kai Yu, Eng-Siong Chng, Xie Chen. “MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix”. In Proc. NeurIPS, 2025.
Yuezhang PENG, Yuxin Liu, Fei Wen, Xie Chen, “MUZO: Leveraging Multiple Queries and Momentum for Zeroth-Order Fine-Tuning of Large Language Models”. In Proc. EMNLP, 2025.
Pengchao Feng, Ziyang Ma, Wenxi Chen, Yao Li, SHENG WANG, Kai Yu, Xie Chen. “Enhancing Speech-to-Speech Dialogue Modeling with End-to-End Retrieval-Augmented Generation”. In Proc. EMNLP-Findings, 2025.
Ruiqi Yan, Xiquan Li, Wenxi Chen, Zhikang Niu, Chen Yang, Ziyang Ma, Kai Yu, Xie Chen. “URO-Bench: Towards Comprehensive Evaluation for End-to-End Spoken Dialogue Models”. In Proc. EMNLP-Findings, 2025.
Ziyang Ma, Zhuo Chen, Yuping Wang, Eng Siong Chng, Xie Chen, “Audio-cot: Exploring chain-of-thought reasoning in large audio language model”, In Proc. ASRU, 2025.
Yuezhang PENG, Yuxin Liu, Yao Li, Sheng Wang, Fei Wen, Xie Chen, “ZO-ASR: Zeroth-Order Fine-Tuning of Speech Foundation Models without Back-Propagation”, In Proc. ASRU, 2025.
Haoran Wang, Guanyu Chen, Bohan Li, Hankun Wang, Yiwei Guo, Zhihan Li, Xie Chen, Kai Yu. “Towards General Discrete Speech Codec for Complex Acoustic Environments: A Study of Reconstruction and Downstream Task Consistency”. In Proc. ASRU, 2025.
Xiao Li, Qi Chen, Xiulian Peng, Kai Yu, Xie Chen, Yan Lu. “Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video”. In Proc. ICCV, 2025.
Yifan Yang, Shujie Liu, Jinyu Li, Yuxuan Hu, Haibin Wu, Hui Wang, Jianwei Yu, Lingwei Meng, Haiyang Sun, Yanqing Liu, Yan Lu, Kai Yu, Xie Chen. “Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis”. In Proc. ACM MM, 2025.
Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen. “Emovoice: Llm-based emotional text-to-speech model with freestyle text prompting”. In Proc. ACM MM, 2025.
Hanglei Zhang, Yiwei Guo, Zhihan Li, Xiang Hao, Xie Chen, Kai Yu. “Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate”. In Proc. INTERSPEECH, 2025.
Yiwei Guo, Zhihan Li, Chenpeng Du, Hankun Wang, Xie Chen, Kai Yu. “LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec”. In Proc. INTERSPEECH, 2025.
Qixi Zheng, Yushen Chen, Zhikang Niu, Ziyang Ma, Xiaofei Wang, Kai Yu, Xie Chen. “Accelerating Flow-Matching-Based Text-to-Speech via Empirically Pruned Step Sampling”. In Proc. INTERSPEECH, 2025.
Mingyu Cui, Yifan Yang, Jiajun Deng, Jiawen Kang, Shujie Hu, Tianzi Wang, Zhaoqing Li, Shiliang Zhang, Xie Chen, Xunying Liu. “Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR”. In Proc. INTERSPEECH, 2025.
Jeongsoo Choi, Zhikang Niu, Ji-Hoon Kim, Chunhui Wang, Joon Son Chung, Xie Chen. “Accelerating Diffusion-based Text-to-Speech Model Training with Dual Modality Alignment”. In Proc. INTERSPEECH, 2025.
Jianheng Zhuo, Yifan Yang, Yiwen Shao, Yong Xu, Dong Yu, Kai Yu, Xie Chen. “VietASR: Achieving Industry-level Vietnamese ASR with 50-hour labeled data and Large-Scale Speech Pretraining”. In Proc. INTERSPEECH, 2025.
Yu Pu, Xiaoqian Liu, Guangyu Zhang, Zheng Yan, Wei-Qiang Zhang, Xie Chen. “Empowering Large Language Models for End-to-End Speech Translation Leveraging Synthetic Data”. In Proc. INTERSPEECH, 2025.
Yushen CHEN, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, JianZhao, Kai Yu, Xie Chen. “F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching”. In Proc. ACL, 2025.
Yifan Yang, Zheshu Song, Jianheng Zhuo, Mingyu Cui, Jinpeng Li, Bo Yang, Yexing Du, Ziyang Ma, Xunying Liu, Ziyuan Wang, Ke Li, Shuai Fan, Kai Yu, Wei-Qiang Zhang, Guoguo Chen, Xie Chen. “GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement”. In Proc. ACL, 2025.
Yexing Du, Youcheng Pan, Ziyang Ma, Bo Yang, Yifan Yang, Keqi Deng, Xie Chen, Yang Xiang, Ming Liu, Bing Qin. “Making LLMs Better Many-to-Many Speech-to-Text Translators with Curriculum Learning”. In Proc. ACL, 2025.
Keqi Deng, Wenxi Chen, Xie Chen, Phil Woodland. “SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation”. In Proc. ACL, 2025.
Ziyang Ma, Xiquan Li, Yakun Song, Wenxi Chen, Chenpeng Du, Jian Wu, Yuanzhe Chen, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen. “Towards Reliable Large Audio Language Model”. In Findings of ACL, 2025.
Wenxi Chen, Ziyang Ma, Ruiqi Yan, Yuzhe Liang, Xiquan Li, Ruiyang Xu, Zhikang Niu, Yanqiao Zhu, Yifan Yang, Zhanxun Liu, Kai Yu, Yuxuan Hu, Jinyu Li, Yan Lu, Shujie LIU, Xie Chen. “SLAM-Omni: Timbre-Controllable Voice Interaction System with Single-Stage Training”. In Findings of ACL, 2025.
Tianrui Wang, Jin Li, Ziyang Ma, Rui Cao, Xie Chen, Longbiao Wang, Meng Ge, Xiaobao Wang, Yuguang Wang, Jianwu Dang, Nyima Tashi. “Progressive residual extraction based pre-training for speech representation learning”, In IEEE/ACM TASLP, 2025.
Tianrui Wang, Meng Ge, Zhikang Niu, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Ziyang Ma, Xiaobao Wang, Xie Chen, Longbiao Wang, Jianwu Dang. “A Progressive Generation Framework with Speech Pre-trained Model for Expressive Voice Conversion”. In Proc. ICME, 2025.
Yifan Yang, Jianheng Zhuo, Zengrui Jin, Ziyang Ma, Xiaoyu Yang, Zengwei Yao, Liyong Guo, Wei Kang, Fangjun Kuang, Long Lin, Daniel Povey, Xie Chen. “k2SSL: A Faster and Better Framework for Self-Supervised Speech Representation Learning”. In Proc. ICME, 2025.
Guanrou Yang, Fan Yu, Ziyang Ma, Zhihao Du, Zhifu Gao, Shiliang Zhang, Xie Chen. “Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap”. In Proc. ICASSP, 2025.
Xiquan Li, Wenxi Chen, Ziyang Ma, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Qiuqiang Kong, Xie Chen. “DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning”. In Proc. ICASSP, 2025.
Chenpeng Du, Yiwei Guo, Hankun Wang, Yifan Yang, Zhikang Niu, Shuai Wang, Hui Zhang, Xie Chen, Kai Yu. “VALL-T: Decoder-only generative transducer for robust and decoding-controllable text-to-speech”. In Proc. ICASSP, 2025.
Wenxi Chen, Ziyang Ma, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, Xie Chen. “SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs”. In Proc. ICASSP, 2025.
Ziyang Ma, Yakun Song, Chenpeng Du, Jian Cong, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen. “Language Model Can Listen While Speaking”. In Proc. AAAI, 2025.
Yakun Song, Zhuo Chen, Xiaofei Wang, Ziyang Ma, Xie Chen. “ELLA-V: Stable Neural Codec Language Modeling with Alignment-Guided Sequence Reordering”. In Proc. AAAI, 2025.
Ziyang Ma, Guanrou Yang, Yifan Yang, Zhifu Gao, Jiaming Wang, Zhihao Du, Fan Yu, Qian Chen, Siqi Zheng, ShiLiang Zhang, Xie Chen. “Speech Recognition Meets Large Language Model: Benchmarking, Models, and Exploration”. In Proc. AAAI, 2025.
Tao Liu, Ziyang Ma, Qi Chen, Feilong Chen, Shuai Fan, Xie Chen, Kai Yu. “VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization”. In Proc. AAAI, 2025.

2024

Zheng Liang, Ziyang Ma, Chenpeng Du, Kai Yu, Xie Chen. “E3 TTS: End-to-End Text-Based Speech Editing TTS System and Its Applications”. IEEE/ACM TASLP, 2024
Guanrou Yang, Ziyang Ma, Zhifu Gao, Shiliang Zhang, Xie Chen. “CTC-Assisted LLM-Based Contextual ASR”. In Proc. SLT, 2024
Zhikang Niu, Sanyuan Chen, Long Zhou, Ziyang Ma, Xie Chen, Shujie Liu. “NDVQ: Robust neural audio codec with normal distribution-based vector quantization”. In Proc. SLT, 2024
Hankun Wang, Chenpeng Du, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu. “Attention-Constrained Inference for Robust Decoder-Only Text-to-Speech”. In Proc. SLT, 2024
Tao Liu, Feilong Chen, Shuai Fan, Chenpeng Du, Qi Chen, Xie Chen, Kai Yu. “AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding”. In Proc. ACM MM, 2024
Bohan Li, Feiyu Shen, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu. “On the Effectiveness of Acoustic BPE in Decoder-Only TTS”. In Proc. INTERSPEECH, 2024
Yakun Song, Zhuo Chen, Xiaofei Wang, Ziyang Ma, Guanrou Yang, Xie Chen. “TacoLM: GaTed Attention Equipped Codec Language Model are Efficient Zero-Shot Text to Speech Synthesizers”. In Proc. INTERSPEECH, 2024
Anbai Jiang, Bing Han, Zhiqiang Lv, Yufeng Deng, Wei-Qiang Zhang, Xie Chen, Yanmin Qian, Jia Liu, Pingyi Fan. “AnoPatch: Towards Better Consistency in Machine Anomalous Sound Detection”. In Proc. INTERSPEECH, 2024
Xuankai Chang, Jiatong Shi, Jinchuan Tian, Yuning Wu, Yuxun Tang, Yihan Wu, Shinji Watanabe, Yossi Adi, Xie Chen, Qin Jin. “The Interspeech 2024 Challenge on Speech Processing Using Discrete Units”. In Proc. INTERSPEECH, 2024
Ziyang Ma, Mingjie Chen, Hezhao Zhang, Zhisheng Zheng, Wenxi Chen, Xiquan Li, Jiaxin Ye, Xie Chen, Thomas Hain. “EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark”. In Proc. INTERSPEECH, 2024
Guanrou Yang, Ziyang Ma, Fan Yu, Zhifu Gao, Shiliang Zhang, Xie Chen. “MaLa-ASR: Multimedia-Assisted LLM-Based ASR”. In Proc. INTERSPEECH, 2024
Mingjie Chen, Hezhao Zhang, Yuanchao Li, Jiachen Luo, Wen Wu, Ziyang Ma, Peter Bell, Catherine Lai, Joshua Reiss, Lin Wang, Philip Woodland, Xie Chen, Huy Phan, Thomas Hain. “1st Place Solution to Odyssey Emotion Recognition Challenge Task1: Tackling Class Imbalance Problem”. Odyssey 2024
Wen Huang, Anbai Jiang, Bing Han, Xinhu Zheng, Yihong Qiu, Wenxi Chen, Yuzhe Liang, Pingyi Fan, Wei-Qiang Zhang, Cheng Lu, Xie Chen, Jia Liu, Yanmin Qian. “Semi-supervised Acoustic Scene Classification with Test-Time Adaptation”. In ICME Workshop, 2024
Yuzhe Liang, Wenxi Chen, Yihong Qiu, Xinhu Zheng, Boyuan Chen, Jia Liu, Wei-Qiang Zhang, Cheng Lu, Xie Chen. “Improving Acoustic Scene Classification via Self-Supervised and Semi-Supervised Learning with Efficient Audio Transformer”. In ICME Workshop, 2024
Zheshu Song, Jianheng Zhuo, Yifan Yang, Ziyang Ma, Shixiong Zhang, Xie Chen. “LoRA-Whisper: Parameter-Efficient and Extensible Multilingual ASR”. In Proc. INTERSPEECH, 2024
Peng Wang, Yifan Yang, Zheng Liang, Tian Tan, Shiliang Zhang, Xie Chen. “Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer”. In Proc. INTERSPEECH, 2024
Junzhe Liu, Jianwei Yu, Xie Chen. “Improved Factorized Neural Transducer Model For text-only Domain Adaptation”. In Proc. INTERSPEECH, 2024
Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang Zhang, Xie Chen. “emotion2vec: Self-supervised pre-training for speech emotion representation”. In Findings of ACL, 2024
Jinpeng Li, Xie Chen, Weiqiang Zhang. “Exploring Generation of Pronunciation Lexicon for Low-Resource Language Automatic Speech Recognition Based on Generic Phone Recognizer”. Journal of Shanghai Jiaotong University (Science), 2024
Junjie Li, Yiwei Guo, Xie Chen, Kai Yu. “SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention”. In Proc. ICASSP, 2024
Sen Liu, Yiwei Guo, Xie Chen, Kai Yu. “StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations”. In Proc. ICASSP, 2024
Feiyu Shen, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu. “Acoustic BPE for speech generation with discrete tokens”. In Proc. ICASSP, 2024
Ziyang Ma, Wen Wu, Zhisheng Zheng, Yiwei Guo, Qian Chen, Shiliang Zhang, Xie Chen. “Leveraging speech PTM, text LLM, and emotional TTS for speech emotion recognition”. In Proc. ICASSP, 2024
Yifan Yang, Feiyu Shen, Chenpeng Du, Ziyang Ma, Kai Yu, Daniel Povey, Xie Chen. “Towards universal speech discrete tokens: A case study for ASR and TTS”. In Proc. ICASSP, 2024
Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu. “Voiceflow: Efficient text-to-speech with rectified flow matching”. In Proc. ICASSP, 2024
Chenpeng Du, Yiwei Guo, Feiyu Shen, Zhijun Liu, Zheng Liang, Xie Chen, Shuai Wang, Hui Zhang, Kai Yu. “UniCATS: A unified context-aware text-to-speech framework with contextual VQ-diffusion and vocoding”. In Proc. AAAI, 2024
Zhisheng Zheng, Puyuan Peng, Ziyang Ma, Xie Chen, Eunsol Choi, David Harwath. “BAT: Learning to Reason about Spatial Sounds with Large Language Models”. In Proc. ICML, 2024
Xun Gong, Yu Wu, Jinyu Li, Shujie Liu, Rui Zhao, Xie Chen, Yanmin Qian. “Advanced long-content speech recognition with factorized neural transducer”. IEEE/ACM TASLP, 2024
Wenxi Chen, Yuzhe Liang, Ziyang Ma, Zhisheng Zheng, Xie Chen. “EAT: Self-supervised pre-training with efficient audio transformer”. In Proc. IJCAI, 2024

2023

Guanrou Yang, Ziyang Ma, Zhisheng Zheng, Yakun Song, Zhikang Niu, Xie Chen. “Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech Representation Learning”. In Proc. ASRU, 2023.
Yujin Wang, Changli Tang, Ziyang Ma, Zhisheng Zheng, Xie Chen, Wei-Qiang Zhang. “Exploring Effective Distillation of Self-Supervised Speech Models for Automatic Speech Recognition”. In Proc. ASRU, 2023.
Chenpeng Du, Yiwei Guo, Xie Chen, Kai Yu. “Speaker Adaptive Text-to-Speech with Timbre-Normalized Vector-Quantized Feature”. In IEEE/ACM TASLP, 2023.
Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao, Jiang Bian. “DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder”. In Proc. ACM MM, 2023.
Zheng Liang, Zheshu Song, Ziyang Ma, Chenpeng Du, Kai Yu, Xie Chen. “Improving Code-Switching and Name Entity Recognition in ASR with Speech Editing based Data Augmentation”. In Proc. INTERSPEECH, 2023.
Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen. “MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets”. In Proc. INTERSPEECH, 2023.
Yifan Yang, Xiaoyu Yang, Liyong Guo, Zengwei Yao, Wei Kang, Fangjun Kuang, Long Lin, Xie Chen, Daniel Povey. “Blank-regularized CTC for Frame Skipping in Neural Transducer”. In Proc. INTERSPEECH, 2023.
Ziyang Ma, Zhisheng Zheng, Guanrou Yang, Yu Wang, Chao Zhang, Xie Chen. “Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation”. In Proc. INTERSPEECH, 2023.
Zhisheng Zheng, Ziyang Ma, Yu Wang, Xie Chen. “Unsupervised Active Learning: Optimizing Labeling Cost-Effectiveness for Automatic Speech Recognition”. In Proc. INTERSPEECH, 2023.
Mingyu Cui, Jiawen Kang, Jiajun Deng, Xi Yin, Yutao Xie, Xie Chen, Xunying Liu. “Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems”. In Proc. INTERSPEECH, 2023.
Sen Liu, Yiwei Guo, Chengpeng Du, Xie Chen, Kai Yu. “DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech”. In Proc. INTERSPEECH, 2023.
Tianrui Wang, Xie Chen, Zhuo Chen, Shu Yu, Weibin Zhu. “An Adapter Based Multi-Label Pre-Training for Speech Separation and Enhancement”. Proc. ICASSP, 2023.
Xun Gong, Wei Wang, Hang Shao, Xie Chen, Yanmin Qian. “Factorized AED: Factorized Attention-Based Encoder-Decoder for Text-Only Domain Adaptive ASR”. Proc. ICASSP, 2023.
Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu. “Emodiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance”. Proc. ICASSP, 2023.
Xun Gong, Yu Wu, Jinyu Li, Shujie Liu, Rui Zhao, Xie Chen, Yanmin Qian. “LongFNT: Long-Form Speech Recognition with Factorized Neural Transducer”. Proc. ICASSP, 2023.
Xie Chen, Ziyang Ma, Changli Tang, Yujin Wang, Zhisheng Zheng. “Front-End Adapter: Adapting Front-End Input of Speech Based Self-Supervised Learning for Speech Recognition”. Proc. ICASSP, 2023.
Qi Chen, Ziyang Ma, Tao Liu, Xu Tan, Qu Lu, Kai Yu, Xie Chen. “Improving Few-Shot Learning for Talking Face System with TTS Data Augmentation”. Proc. ICASSP, 2023.

2022

Z Meng, Y Gaur, N Kanda, J Li, X Chen, Y Wu, Y Gong. “Internal language model adaptation with text-only data for end-to-end speech recognition”. In Proc. INTERSPEECH, 2022
Chenpeng Du, Yiwei Guo, Xie Chen, Kai Yu. “VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature”. In Proc. INTERSPEECH, 2022
Xie Chen, Zhong Meng, S Parthasarathy, Jinyu Li. “Factorized neural transducer for efficient language model adaptation”. In Proc. ICASSP, 2022

2021 and Before

D Narayanan, A Phanishayee, K Shi, X Chen, M Zaharia. “Memory-efficient pipeline-parallel DNN training”. In Proc. ICML, 2021
Y Deng, R Zhao, Z Meng, X Chen, B Liu, J Li, Y Gong, L He. “Improving RNN-T for Domain Scaling Using Semi-Supervised Training with Neural TTS”. In Proc. INTERSPEECH, 2021
Xie Chen, Y. Wu, Z. Wang, S. Liu, J. Li. “Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset”. In Proc. ICASSP, 2021
Z. Meng, N. Kanda, Y. Gaur, S. Parthasarathy, E. Sun, L. Lu, Xie Chen, J. Li, Y. Gong. “Internal Language Model Training for Domain-Adaptive End-to-End Speech Recognition”. In Proc. IEEE ICASSP, 2021
Z. Meng, S. Parthasarathy, E. Sun, Y. Gaur, N. Kanda, L. Lu, Xie Chen, R. Zhao, J. Li, Y. Gong. “Internal Language Model Estimation for Domain-Adaptive End-to-End Speech Recognition”. In Proc. IEEE SLT, 2020
Xie Chen, S. Parthasarathy, W. Gale, S. Chang, M. Zeng. “LSTM-LM with Long-Term History for First-Pass Decoding in Conversational Speech Recognition”. arXiv preprint arXiv:2010.11349, 2020
J. Xu, Xie Chen, S. Hu, J. Yu, X. Liu, H. Meng. “Low-bit Quantization of Recurrent Neural Network Language Models Using Alternating Direction Methods of Multipliers”. In Proc. ICASSP, 2020
Xie Chen, X. Liu, Y. Wang, A. Ragni, M. Gales. “Exploiting Future Word Contexts in Neural Network Language Model”. IEEE/ACM TASLP, 2019
S. Parthasarathy, W. Gale, Xie Chen, G. Polovets, S. Chang. “Long-span language modeling for speech recognition”. arXiv preprint arXiv:1911.04571, 2019
Xie Chen, J. Zhang, T. Anastasakos, F. Alleva. “Investigation of Sampling Techniques for Maximum Entropy Language Modeling Training”. In Proc. ICASSP, 2019
M. Lam, Xie Chen, S. Hu, J. Yu, X. Liu, H. Meng. “Gaussian Process LSTM Recurrent Neural Network Language Models for Speech Recognition”. In Proc. ICASSP, 2019
J. Yu, M. Lam, Xie Chen, S. Hu, S. Liu, X. Wu, X. Liu, H. Meng. “Recurrent Neural Network Language Models Training using Natural Gradient”. In Proc. ICASSP, 2019
O. Chen, A. Ragni, M.J.F. Gales, Xie Chen. “Active Memory Networks for Language Modeling”. In Proc. INTERSPEECH, 2018
M. Zhang, Xie Chen, R. Cummins, Q. Andersen, T. Briscoe. “The Effect of Adding Authorship Knowledge in Automated Text Scoring”. In Workshop of BEA, NAACL, 2018
X. Liu, S. Liu, J. Sha, J. Yu, Z Xu, Xie Chen, H. Meng. “Limited-memory BFGS Optimization of Recurrent Neural Network Language Models For Speech Recognition”. In Proc. ICASSP, 2018
Y. Wang, Xie Chen, M.J.F. Gales, A. Ragni, J. Wong. “Phonetic and Graphemic Systems for Multi-Genre Broadcast Transcription”. In Proc. ICASSP, 2018
H. Xu, K. Li, Y. Wang, J. Wang, S. Kang, Xie Chen, D. Povey, S. Khudanpur. “Neural Network Language Modeling with Letter-based Features and Importance Sampling”. In Proc. ICASSP, 2018
Xie Chen, X. Liu, A. Ragni, Y. Wang, M.J.F. Gales. “Future Word Context in Neural Network Language Model”. In Proc. ASRU, 2017
Xie Chen, A. Ragni, X. Liu, M.J.F. Gales. “Investigating Bidirectional Recurrent Neural Network Language Models for Speech Recognition”. In Proc. INTERSPEECH, 2017
Xie Chen, A. Ragni, J. Vasilakes, X. Liu, K. Knill, M.J.F. Gales. “Recurrent Neural Network Language Models for Keyword Search”. In Proc. ICASSP, 2017
Xie Chen, X. Liu, Y. Wang, M.J.F. Gales, P.C. Woodland. “Efficient Training and Evaluation of Recurrent Neural Network Language Models for Speech Recognition”. IEEE/ACM TASLP, 2016
X. Liu, Xie Chen, Y. Wang, M.J.F. Gales, P.C. Woodland. “Two Efficient Lattice Rescoring Methods Using Recurrent Neural Network Language Models”. IEEE/ACM TASLP, 2016
A. Ragni, E. Dakin, Xie Chen, M.J.F. Gales, K.M. Knill. “Multi-Language Neural Network Language Models”. In Proc. INTERSPEECH, 2016
Xie Chen, X. Liu, Y. Qian, M.J.F. Gales, P.C. Woodland. “CUED-RNNLM: An Open-Source Toolkit for Efficient Training and Evaluation of Recurrent Neural Network Language Models”. In Proc. ICASSP, 2016
Xie Chen, X. Liu, M.J.F. Gales, P.C. Woodland. “Investigation of back-off based interpolation between Recurrent Neural Network and N-Gram Language Models”. In Proc. ASRU, 2015
Xie Chen, T. Tan, X. Liu, P. Lancheantin, M. Wan, M.J.F. Gales, P.C. Woodland. “Recurrent Neural Network Language Model Adaptation for Multi-Genre Broadcast Speech Recognition”. In Proc. INTERSPEECH, 2015
Xie Chen, X. Liu, M.J.F. Gales, P.C. Woodland. “Improving the Training and Evaluation Efficiency of Recurrent Neural Network Language Models”. In Proc. ICASSP, 2015.
Xie Chen, X. Liu, M.J.F. Gales, P.C. Woodland. “Recurrent Neural Network Language Model Training with Noise Contrastive Estimation for Speech Recognition”. In Proc. ICASSP, 2015.
X. Liu, Xie Chen, M.J.F. Gales, P.C. Woodland. “Paraphrastic Recurrent Neural Network Language Models”. In Proc. ICASSP, 2015.
T. Drugman, Y. Stylianou, L. Chen, Xie Chen, M.J.F. Gales. “Robust Excitation-based Feature for Automatic Speech Recognition”. In Proc. ICASSP, 2015.
Xie Chen, M.J.F. Gales, K. Knill et al. “An Initial Investigation of Long-Term Adaptation for Meeting Transcription”. In Proc. INTERSPEECH, 2014.
Xie Chen, Y. Wang, X. Liu, M.J.F. Gales, P.C. Woodland. “Efficient GPU-based Training of Recurrent Neural Network Language Models Using Spliced Sentence Bunch”. In Proc. INTERSPEECH, 2014.
X. Liu, Y. Wang, Xie Chen, M.J.F. Gales, P.C. Woodland. “Efficient Lattice Rescoring Using Recurrent Neural Network Language Models”. In Proc. ICASSP, 2014.
T. Yoshioka, Xie Chen, M.J.F. Gales. “Impact of Single-Microphone Dereverberation on DNN-based Meeting Transcription Systems”. In Proc. ICASSP, 2014.
J. Liu, Xie Chen, Y. Shan, Y. Shi. “Construction of a Compact Dynamic Decoder Network for Large Vocabulary Continuous Speech Recognition”. Tsinghua Journal of Chinese Studies, 2012.
Y. Shan, Xie Chen, Y. Shi, J. Liu. “Fast Language Model Look-ahead Algorithm Using Extended N-gram Model”. ACTA AUTOMATICA SINICA, 2012.
Xie Chen, A. Eversol, D. Yu, F. Seide. “Pipelined Back-Propagation for Context-Dependent Deep Neural Networks”. In Proc. INTERSPEECH, 2012.
Xie Chen, Y. Shan, X. Zhang, J. Liu. “An Efficient Layer-wised Beam Pruning Algorithm for Large Vocabulary Continuous Speech Recognition System”. In Proc. ICALIP, 2012.
F. Seide, G. Li, Xie Chen, D. Yu. “Feature Engineering in Context-Dependent Deep Neural Networks for Conversational Speech Transcription”. In Proc. ASRU, 2011.

Xie Chen

Publication

2026

2025

2024

2023

2022

2021 and Before