现任百度高级研发工程师,专注于计算机视觉、多模态大语言模型和自动驾驶研究
# **杨森个人主页**
## 关于我
- **计算机视觉研究员**
- 研究方向:
- 计算机视觉
- 多模态大语言模型
- 自动驾驶
## 教育背景
- **博士**:东南大学(2019.5-2023.3)
- 硕士:东南大学(2017.9-2019.1)
- 学士:吉林大学(2013.9-2017.7)
## 工作经历
- **百度 VIS 高级研发工程师**(2023.7-至今)
- 腾讯 TPG 实习生(2021.12-2022.8)
- 旷视科技 实习生(2021.1-2021.10)
## 研究成果
- **自动驾驶**
- TopoSD: Topology-Enhanced Lane Segment Perception
- MGMapNet: Multi-Granularity Representation Learning
- **多模态大模型**
- Vision Remember: Alleviating Visual Forgetting in Efficient MLLM
- **姿态估计**
- Detecting and grouping keypoints
- Capturing the motion of every joint
- Searching part-specific neural fabrics
- SimCC: A Simple Coordinate Classification
- TokenPose: Learning Keypoint Tokens
- TransPose: Keypoint Localization via Transformer
## 技术栈
- **多模态大模型**
- MLLM架构:自回归模型、LLaVA、Qwen2.5-VL、LISA、Grounding Models
- 训练技术:SFT、强化学习
- 视觉Token压缩、大规模分布式训练
- **自动驾驶感知**
- BEV视觉建图、时序建模、概率规划
- 多模态融合:视觉+地图结构化数据
- VLM
- **深度学习框架**
- PyTorch、Python、C++
- Transformer模型、GPU/昇腾NPU开发
## 联系方式
- 邮箱: yangsenius@gmail.com
- 博客: senyang-ml.github.io
- 谷歌学术主页
我是百度的一名研究工程师,主要从事计算机视觉、多模态大语言模型和自动驾驶方面的工作。我于2023年获得东南大学博士学位。我的研究重点是计算机视觉和深度学习,特别关注2D/3D人体姿态估计、自动驾驶感知和视觉多模态基础模型。我热衷于开发创新解决方案,将前沿研究与实际应用相结合。
我的研究兴趣包括:
高级研发工程师
2023.7 - 至今
负责多模态大模型、自动驾驶视觉感知与规划的算法研究与创新应用,旨在推动技术边界,解决复杂挑战。工作涵盖从前沿算法设计到产品落地的全流程,注重将理论突破转化为实际业务价值,并在多个核心领域取得显著进展。
实习生
2021.12 - 2022.8
负责三维人体重建与动作生成项目,基于参数化SMPL模型提出独立token表征方法,实现了高精度的三维人体重建和关节运动捕捉,3DPW指标提升8%,论文发表在ICLR-2023 (spotlight, top25%)。
实习生
2021.1 - 2021.10
参与人体姿态估计项目,设计基于token表示的Transformer模型(ICCV-2021)。研究Transformer中注意力模式(Pattern Recognition)。首创坐标分类新范式SimCC,突破传统回归和heatmap方法精度瓶颈(ECCV 2022 Oral,被主流姿态估计框架采用)。
arXiv preprint arXiv:2503.07168, 2025
ICLR 2025 (引用0次)
Pattern Recognition (引用22次)
ICLR 2023 (spotlight, top 25%) (引用14次)
Pattern Recognition (引用12次)
ECCV 2022 (oral, top 5%) (引用200+次)
arXiv preprint arXiv:2409.15730, 2024 (引用1次)
yangsenius@gmail.com