孙晨曦

工作地点: 北京
v13552635119@sina.com
134-3972-4191

教育背景

大模型相关工作

腾讯TEG | 混元大模型团队 | 核心成员

2024年8月 - 至今 | 语音-文本预训练+对话SFT+RL
  • 对话大模型多阶段continue training的实验设计/数据配比设计/模型训练,同时保证模型不降智
  • 语音对话数据的设计/构建,为更高质量的对话体验做human in the loop的数据构建流程
  • 构建评价体系,用deepseek等LLM as reward,量化人工主观标准,用online-DPO兜底对话模型文本内容表现
  • 业绩:
    • 支持了混元O模型的首次上线
    • 主导了语音对话的高沉浸感、拟人性数据设计,为下一代语音对话的体验,做了充足的准备
2024年12月 - 至今 | 强化学习在语音识别/语音对话/语音生成上的探索
  • 业界普遍认为语音输出的好坏标准难以做主观拟合,但我组织技术小组,根据 1 万条语音,梳理多场景语音需求,梳理了生成语音 vs 人类语音差异的一套语音评价体系
  • 总结出一套结合语义和语音的可执行的语音caption人工标注流程,可以做到高效标注出语音好坏的优质数据
  • 挑战了在最难的自然度/拟人度维度上标注正负例,在5k数据上进行了offline DPO训练,除WER等客观指标外,在语义相关的"自然度/拟人度"方面,有CMOS>0.3明显的提升。在"聊天感"的音色上优势明显。为后续语音reward model的设计提供了指导
  • 复现seed-ASR的WWER 强化学习,通用测试集上WER有5%的相对下降
  • 业绩:
    • 验证了强化学习在语音生成上的潜力,为将来"基于丰富语音caption和长链的reward model"应用到语音对话/生成提供了实践的可能性
    • 强化学习在语音识别任务上带来的收益,支持了混元O模型的首次上线
2024年11月 - 至今 | 流式语音encoder+流式ASR
  • 带小组研发基于ssl的流式语音encoder,在多测试集上超越whipser-large encoder部分的性能,从而在encoder+LLM下游任务ASR上达到更优性能
  • 业绩:
    • 经自研的encoder+LLM续训ASR任务,wer相对whisper-large-v3+LLM有10%相对优势,由于内容理解正确性提高,间接提高了语音对话质量
    • 自监督方案,具有泛化到广义音频理解的潜力,为下一步混元voice模型泛化到音频理解打下一定基础
2024年8月 - 2024年10月 | 数据管线小组的建设和部分管理工作
  • 临时带组建设第一套可用的数据管线流程,为千万小时级语音数据积累,打下重要基础
  • 串接数据处理管线各个算子,和工程同学合作,充分利用CPU算力和GPU算力,以达到高效数据处理

腾讯TEG AI平台部 | 语音生成大模型 | 8人leader

2023年4月 - 2024年8月 | 研发优化语音大模型
  • 数据管线建设: 完成大数据管线处理(下载、切分、降噪、评估、转写、韵律标注等)提效—— 训练提效——评测提效工具链建设
  • 在llama框架上复现vall-e方案, 带团队做改进, 以解决稳定性/音色解耦问题
    • 音频token BPE压缩, 缩短序列长度, 解决特定问题以降低WER;
    • 调整参数topk/topp/repetition penalty, 解决特定问题以降低WER;
    • 提高prompt text - prompt speech匹配度降低音色克隆WER;
    • encodec第一层蒸馏hubert, 解耦语义信息, 改善音色解耦水平, 提高音色克隆相似度;
    • 引入文本续写+音频续写+TTS预训练, 因具备一定语义理解能力而导致表现力收益;
    • 金标-银标-铜标数据配比组合尝试, 模型size摸高, 最大2B dense (实验都是基于V100), 最终取得稳定性-表现力balance;
  • 业绩:
    • 完成 120 万小时(约 320B 个 token)有效可训练数据的积累 (当时在业界较领先)
    • 在表现力/语音复刻能力/稳定性(WER 指标)方面,几乎接近业界最领先效果(字节豆包),与字节 seed 团队当时技术报告对比 具体指标如下(使用与 seedTTS 报告中相同的测试集): WER(字错率,越低越好): 字节 0.87%,我们 1.01%;ICL语音复刻能力/SMOS:字节0.85,我们0.82; 表现力(人工主观指标,越高越好):字节MOS分 4.3,我们4.15
    • 2023年终五星;

大模型之前的工作

学校经历

自我评价