下载PDF简历
孙晨曦
工作地点: 北京
v13552635119@sina.com
134-3972-4191
教育背景
控制理论与控制工程
| 中国科学院(现中国科学院大学)自动化所 | 2010年 - 2013年 | 工学硕士
自动化
| 南京大学 | 2006年 - 2010年 | 工学学士
大模型相关工作
腾讯TEG | 混元大模型团队 | 核心成员
2024年8月 - 至今 | 语音-文本预训练+对话SFT+RL
对话大模型多阶段continue training的实验设计/数据配比设计/模型训练,同时保证模型不降智
语音对话数据的设计/构建,为更高质量的对话体验做human in the loop的数据构建流程
构建评价体系,用deepseek等LLM as reward,量化人工主观标准,用online-DPO兜底对话模型文本内容表现
业绩:
支持了混元O模型的首次上线
主导了语音对话的高沉浸感、拟人性数据设计,为下一代语音对话的体验,做了充足的准备
2024年12月 - 至今 | 强化学习在语音识别/语音对话/语音生成上的探索
业界普遍认为语音输出的好坏标准难以做主观拟合,但我组织技术小组,根据 1 万条语音,梳理多场景语音需求,梳理了生成语音 vs 人类语音差异的一套语音评价体系
总结出一套结合语义和语音的可执行的语音caption人工标注流程,可以做到高效标注出语音好坏的优质数据
挑战了在最难的自然度/拟人度维度上标注正负例,在5k数据上进行了offline DPO训练,除WER等客观指标外,在语义相关的"自然度/拟人度"方面,有CMOS>0.3明显的提升。在"聊天感"的音色上优势明显。为后续语音reward model的设计提供了指导
复现seed-ASR的WWER 强化学习,通用测试集上WER有5%的相对下降
业绩:
验证了强化学习在语音生成上的潜力,为将来"基于丰富语音caption和长链的reward model"应用到语音对话/生成提供了实践的可能性
强化学习在语音识别任务上带来的收益,支持了混元O模型的首次上线
2024年11月 - 至今 | 流式语音encoder+流式ASR
带小组研发基于ssl的流式语音encoder,在多测试集上超越whipser-large encoder部分的性能,从而在encoder+LLM下游任务ASR上达到更优性能
业绩:
经自研的encoder+LLM续训ASR任务,wer相对whisper-large-v3+LLM有10%相对优势,由于内容理解正确性提高,间接提高了语音对话质量
自监督方案,具有泛化到广义音频理解的潜力,为下一步混元voice模型泛化到音频理解打下一定基础
2024年8月 - 2024年10月 | 数据管线小组的建设和部分管理工作
临时带组建设第一套可用的数据管线流程,为千万小时级语音数据积累,打下重要基础
串接数据处理管线各个算子,和工程同学合作,充分利用CPU算力和GPU算力,以达到高效数据处理
腾讯TEG AI平台部 | 语音生成大模型 | 8人leader
2023年4月 - 2024年8月 | 研发优化语音大模型
数据管线建设: 完成大数据管线处理(下载、切分、降噪、评估、转写、韵律标注等)提效—— 训练提效——评测提效工具链建设
在llama框架上复现vall-e方案, 带团队做改进, 以解决稳定性/音色解耦问题
音频token BPE压缩, 缩短序列长度, 解决特定问题以降低WER;
调整参数topk/topp/repetition penalty, 解决特定问题以降低WER;
提高prompt text - prompt speech匹配度降低音色克隆WER;
encodec第一层蒸馏hubert, 解耦语义信息, 改善音色解耦水平, 提高音色克隆相似度;
引入文本续写+音频续写+TTS预训练, 因具备一定语义理解能力而导致表现力收益;
金标-银标-铜标数据配比组合尝试, 模型size摸高, 最大2B dense (实验都是基于V100), 最终取得稳定性-表现力balance;
业绩:
完成 120 万小时(约 320B 个 token)有效可训练数据的积累 (当时在业界较领先)
在表现力/语音复刻能力/稳定性(WER 指标)方面,几乎接近业界最领先效果(字节豆包),与字节 seed 团队当时技术报告对比 具体指标如下(使用与 seedTTS 报告中相同的测试集): WER(字错率,越低越好): 字节 0.87%,我们 1.01%;ICL语音复刻能力/SMOS:字节0.85,我们0.82; 表现力(人工主观指标,越高越好):字节MOS分 4.3,我们4.15
2023年终五星;
大模型之前的工作
腾讯TEG AI平台部 | 面向游戏的高拟人TTS | 10人leader
2021年12月 - 2023年4月
带领团队,从0搭建TTS系统,包括前端系统、TTS声学模型、TTS声码器、歌唱合成系统,歌唱-说话统一框架
带领团队,完善完成TTS特征设计、case率降低、表现力提升等工作,达到稳定可用水平
带领团队,推进极高自然度对话TTS方案的研发
业绩:
从0到1搭建TTS框架和团队建设;
高表现力语音生成技术:2022年团队成员高分中一篇interspeech2023;
形成一套业务支持解决方案,支持王者荣耀陪玩、元梦之星业务;
2022年终五星;
百度TPG 语音技术部 | TOB的云上TTS 2.0 | 小组长
2020年3月 - 2021年6月
带领团队,结合细粒度condition控制+注意力优化+基频时长能量控制,将Tacotron2的稳定性达到智能客服领域企业级要求,SER率首次降至低于0.01%(业界最低)
成功上线单模型-多人-双语-多风格可控声学模型,赋能百度云呼叫中心TTS更强的技术竞争力,获得业务方好评和订单
设计了一种声学-声码器交替训练方案,形成一种云端少数据量精品化定制音库的技术方案,获得业务方好评,带来大量订单
业绩:
彻底解决了SOTA模型Tacotron2的稳定性问题;
形成一套双语、多风格、多音色的端到端声学模型框架,该框架可以完成跨语种、风格控制、音色迁移等任务;
300句少数据量精品化定制音库的技术方案,让公司语音生成效果在TOB市场更优竞争力;
百度TPG 语音技术部 | 歌唱合成及音乐生成 | 小组长
2020年7月 - 2021年11月
带领团队研发歌唱合成技术,完成歌唱合成的数据筛选、清洗,声学模型、声码器的研发和优化,达到业界领先水平
歌唱-说话统一声学模型、歌唱声码器研发,只需20说话数据即可建立唱歌能力,是当时业界SOTA
研发风格可控的歌唱旋律生成以及多轨音乐生成技术
百度TPG 语音技术部 | 声音克隆 | 小组长
2019年10月 - 2020年5月
带领团队,研发多子带RNN通用neural vocoder,大幅提高推理效率,实时率指标提高2倍,上线小度智能音箱
带领团队,将melgan升级为多子带melgan,保持性能的同时模型参数量减少25%,上线到端侧百度地图语音包
业绩:
业内首次落地全神经网络通用声码器,入围2020年度百度最高奖;
百度TPG 语音技术部 | 端侧TTS | 小组长
2020年4月 - 2020年9月
Tacotron2压缩 + 创新提出ddsp+多子带melgan的方式压缩模型,显著降低端侧运行功耗、提高了推理速度,成功落地到百度app端侧和百度地图端侧语音包
业绩:
业内首个全神经网络语音生成系统在端侧高效部署;
百度TPG 语音技术部 | TOB的云上TTS 1.0 | 小组长
2019年1月 - 2020年1月
提出轻量级自回归声学模型Melrnn,自然度接近Tacotron2且简单易训,为公司拿下订单
相同发音人超阿里云竞品 (GSB 0.767:0.232),并在POC中取得优势,增加公司业务订单
先后落地LPCNet和多子带RNN声码器,兼顾了效率和效果,首次将全深度学习的声学和声码器上线私有云服务,替换全部云服务传统音库,帮助公司品牌升级
业绩:
在业界没有解决SOTA模型(Tacotron2)稳定性难题的情况下提出了可行的中间方案,完成业务需求且超过竞品,获业务方高度评价;
百度TPG 语音技术部 | 深度学习语音生成的工业化 | 核心成员
2018 - 2019
提出并落地了syllable级并行WAVERNN声码器,参与模型调优和工程优化,解决了首包响应时延,在CPU上将实时率降到1以下,当时为业界首次将神经网络声码器落地
业绩:
该项目使百度成为世界第二、国内首个提供工业级实时深度学习TTS服务的公司,参与其中;
百度TPG 语音技术部 | 若干小项目 | 核心成员
2017 - 2018
百度小程序《AI说唱》:音频变换C++功能开发,支持了百度开发者大会的宣传工作
拼接合成数据与模型训练自动化工具:完善传统语音合成技术的工具链,语音建设效率提升2倍
基于MDN的拼接合成:将传统声码器的基于状态级别的最优路径挑选,升级为,利用MDN网络预测帧级参数来进行路径 挑选,显著提升了合成效果
学校经历
课外项目
初代LINUX操作系统内核代码改进:基于Linux0.11内核源码和intelIA32手册,以C和汇编语言重写操作系统,改进了内 核的内存管理
嵌入式系统开发(研究生课题)
双轮自平衡机器人,传感器、控制算法优化、C语言电机控制程序开发
优化双轮自平衡机器人的平衡站立和行走的稳定性问题
南京大学交响乐团
南京大学交响乐团重要成员。2007年曾随乐团赴德国莱比锡进行为期10天的交流演出
自我评价
专业素质
有提出自己新思路的创新意愿和能力,有较强的自驱力和成事的心
传统TTS经验8年,大模型一线持续跟进
有一定的团队管理经验
团队管理
在腾讯做过10个人的虚线组长
在百度是6个人研发小组负责人,同时支持2~3个业务方向;期间团队成员均在自己的方向上有优良的产出
其他素质
自驱力强,积极主动
有一定风险偏好,愿意接受挑战,不给自己设限,有”成功”欲望
对声音敏感,有音乐修养,麦霸,15岁小提琴十级