现任百度高级研发工程师,专注于计算机视觉、多模态大语言模型和自动驾驶研究
# **杨森个人主页** ## 关于我 - **计算机视觉研究员** - 研究方向: - 计算机视觉 - 多模态大语言模型 - 自动驾驶 ## 教育背景 - **博士**:东南大学(2019.5-2023.3) - 硕士:东南大学(2017.9-2019.1) - 学士:吉林大学(2013.9-2017.7) ## 工作经历 - **百度 VIS 高级研发工程师**(2023.7-至今) - 腾讯 TPG 实习生(2021.12-2022.8) - 旷视科技 实习生(2021.1-2021.10) ## 研究成果 - **自动驾驶** - TopoSD: Topology-Enhanced Lane Segment Perception - MGMapNet: Multi-Granularity Representation Learning - **多模态大模型** - Vision Remember: Alleviating Visual Forgetting in Efficient MLLM - **姿态估计** - Detecting and grouping keypoints - Capturing the motion of every joint - Searching part-specific neural fabrics - SimCC: A Simple Coordinate Classification - TokenPose: Learning Keypoint Tokens - TransPose: Keypoint Localization via Transformer ## 技术栈 - **多模态大模型** - MLLM架构:自回归模型、LLaVA、Qwen2.5-VL、LISA、Grounding Models - 训练技术:SFT、强化学习 - 视觉Token压缩、大规模分布式训练 - **自动驾驶感知** - BEV视觉建图、时序建模、概率规划 - 多模态融合:视觉+地图结构化数据 - VLM - **深度学习框架** - PyTorch、Python、C++ - Transformer模型、GPU/昇腾NPU开发 ## 联系方式 - 邮箱: yangsenius@gmail.com - 博客: senyang-ml.github.io - 谷歌学术主页
我是百度的一名研究工程师,主要从事计算机视觉、多模态大语言模型和自动驾驶方面的工作。我于2023年获得东南大学博士学位。我的研究重点是计算机视觉和深度学习,特别关注2D/3D人体姿态估计、自动驾驶感知和视觉多模态基础模型。我热衷于开发创新解决方案,将前沿研究与实际应用相结合。
我的研究兴趣包括:
高级研发工程师
2023.7 - 至今
负责多模态大模型、自动驾驶视觉感知与规划的算法研究与创新应用,旨在推动技术边界,解决复杂挑战。工作涵盖从前沿算法设计到产品落地的全流程,注重将理论突破转化为实际业务价值,并在多个核心领域取得显著进展。
实习生
2021.12 - 2022.8
负责三维人体重建与动作生成项目,基于参数化SMPL模型提出独立token表征方法,实现了高精度的三维人体重建和关节运动捕捉,3DPW指标提升8%,论文发表在ICLR-2023 (spotlight, top25%)。
实习生
2021.1 - 2021.10
参与人体姿态估计项目,设计基于token表示的Transformer模型(ICCV-2021)。研究Transformer中注意力模式(Pattern Recognition)。首创坐标分类新范式SimCC,突破传统回归和heatmap方法精度瓶颈(ECCV 2022 Oral,被主流姿态估计框架采用)。
ICLR 2025 (引用0次)
Pattern Recognition (引用22次)
ICLR 2023 (spotlight, top 25%) (引用14次)
Pattern Recognition (引用12次)
ECCV 2022 (oral, top 5%) (引用184次)
arXiv preprint arXiv:2409.15730, 2024 (引用1次)
yangsenius@gmail.com