孙晨曦

工作地点: 北京
v13552635119@sina.com
134-3972-4191

教育背景

大模型相关工作

腾讯TEG | 混元大模型团队 | 核心成员

2024年8月 - 至今 | 语音-文本预训练+对话SFT+初步RL探索 支持元宝方业务落地
  • 对话大模型多阶段continue training的实验设计/数据配比设计/模型训练,同时保证模型不降智
  • 语音对话数据的设计/构建,为更高质量的对话体验做human in the loop的数据构建流程
  • 构建评价体系,用deepseek等LLM as reward,量化人工主观标准,用DPO兜底对话模型文本内容表现
  • 合成数据在语音对话上的充分探索
  • 业绩:
    • 支持了混元O模型的首次上线
    • 语音对话的高沉浸感、拟人性数据设计,为下一代语音对话的体验,做了充足的准备
2024年12月 - 至今 | 强化学习在语音对话/语音生成上的探索
  • 业界普遍认为语音输出的好坏标准难以做主观拟合,但我组织小组,根据 1 万条语音,梳理多场景语音需求,梳理了生成语音 vs 人类语音差异的一套语音评价体系
  • 总结出一套结合语义和语音的可执行的语音caption人工标注流程,可以做到高效标注出语音好坏的优质数据
  • 挑战了在最难的自然度/拟人度维度上标注正负例,在5k数据上进行了offline DPO训练,除WER等客观指标外,在语义相关的"自然度/拟人度"方面,有CMOS>0.3明显的提升。在"聊天感"的音色上优势明显。为后续语音reward model的设计提供了指导
  • 客观指标优化LLM语音生成: GRPO + WER/声纹/MOS/自研韵律表征作为RLVR的充分探索
  • RLAIF在语音对话上的各项探索
  • 业绩:
    • 验证了强化学习在语音生成上的潜力,积累了扎实的认知,为将来"基于丰富语音caption和长链的reward model"应用到语音对话/生成提供了实践的可能性
    • 在RLAIF for 语音对话,尤其是RLAIF for "智商"+"情商"的对话系统积累了相对丰富的经验
2024年8月 - 2024年10月 | 数据管线小组的建设和部分管理工作
  • 临时带组建设第一套可用的数据管线流程,为千万小时级语音数据积累,打下重要基础
  • 串接数据处理管线各个算子,和工程同学合作,充分利用CPU算力和GPU算力,以达到高效数据处理

腾讯TEG AI平台部 | 语音生成大模型 | 10人leader

2023年4月 - 2024年8月 | 研发优化语音大模型
  • 数据管线建设: 完成大数据管线处理(下载、切分、降噪、评估、转写、韵律标注等)提效—— 训练提效——评测提效工具链建设
  • 在llama框架上复现vall-e方案, 带团队做改进, 以解决稳定性/音色解耦问题
    • 音频token BPE压缩, 缩短序列长度, 解决特定问题以降低WER;
    • 调整参数topk/topp/repetition penalty, 解决特定问题以降低WER;
    • 提高prompt text - prompt speech匹配度降低音色克隆WER;
    • encodec第一层蒸馏hubert, 解耦语义信息, 改善音色解耦水平, 提高音色克隆相似度;
    • 引入文本续写+音频续写+TTS预训练, 因具备一定语义理解能力而导致表现力收益;
    • 金标-银标-铜标数据配比组合尝试, 模型size摸高, 最大2B dense (实验都是基于V100), 最终取得稳定性-表现力balance;
  • 业绩:
    • 完成 120 万小时(约 320B 个 token)有效可训练数据的积累 (当时在业界较领先)
    • 在表现力/语音复刻能力/稳定性(WER 指标)方面,几乎接近业界最领先效果(字节豆包),与字节 seed 团队当时技术报告对比 具体指标如下(使用与 seedTTS 报告中相同的测试集): WER(字错率,越低越好): 字节 0.87%,我们 1.01%;ICL语音复刻能力/SMOS:字节0.85,我们0.82; 表现力(人工主观指标,越高越好):字节MOS分 4.3,我们4.15
    • 2023年终五星;

大模型之前的工作

学校经历

自我评价