Sen Yang

杨森


  • Blogs

  • Tags

  • Archives

  • About

My Findings - CoordConv坐标嵌入技术及其泛化性

posted on 2020-09-22

Uber团队在2018NeurIPS上提出了CoordConv,它分析了卷积神经网络在进行坐标预测时存在的缺陷,并引入坐标嵌入方式来解决这个问题。但本人也注意到网上有人质疑这个方法,比如量子位小编报道了一个国外博主的质疑。本人看了他的质疑,他主要是在强调:

用完全数学的方式就可以构造出一个由one-hot heatmap映射到坐标的神经网络,并且根本不需要训练

实际上,他讲的这个和soft-argmax对heatmap求积分得到坐标的方法很像。首先,我想说,数学的归纳是一种非常高阶的手段和智能,很多问题本身就可以直接去用数学问题去解决,但是,这是直接注入了人类专家的知识,并不是神经网络本身从头学习到的(from scratch)。

CoordConv探讨的是,神经网络在拟合能力上以及泛化能力上存在的缺陷。CoorConv的亮点之一在于构造数据集划分的巧妙,一个是普通的train和test坐标数值分布一致的数据集,另外一个是test中的坐标取汁是train中完全没有的取值分布的数据集(正方形的1/4一角区域拿出来做测试),后者在考验模型在未见到的坐标分布上的泛化能力。

该论文的实验以及本人的实验验证发现,大多数普通的MLP或者Conv是很难调出一个好的泛化效果。而CoordConv神奇之处在于,它通过训练的方式来获取一种数学上的严格计算能力,结果确实做到了,因为train loss 和 test loss同时收敛到0,模型可以100%地精确预测坐标,这对于普通神经网络真的挺难的。

本文主要进行了如下的代码实验和分析:

  • 数据集:构造由坐标生成的one-hot heatmap与数值坐标之间的数据集:遵循An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution的quarter split方式。
  • 模型:利用神经网络加坐标嵌入(MLP+Coord and Conv+Coord)的方式进行拟合与泛化测试。
  • 效果分析与发现:用Pytorch复现验证了An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution中Superivised Coordinates Regression任务的CoordConv的泛化性能!
  • 可视化神经网络的某些层和输出,来发掘神经网络学习坐标信息的过程
READ MORE »

Detr

posted on 2020-06-04

Detr (DEtection TRansformer) 是最近很受关注的一个工作。论文叫做「End-to-end object detection with Transformers」, Facebook Research目前把它投稿到了2020年的ECCV。

鉴于网上有太多关于DETR的解读和评价,本文就不做太多的探讨,而致力于分析这两个概念:

  • Set prediction and Hungarian Loss
  • Permutation Invariance
READ MORE »

Bipartite Matching and Hungarian Algorithm

posted on 2020-06-01

引言

二分图匹配和匈牙利算法(Bipartite Matching and Hungarian Algorithm)在CV领域的后处理算法中是经常可以看到的,比如以下的一些论文:

  • 2017年的CVPR工作,OpenPose 利用bipartite matching 来进行,同关节类型的多个人体关键点分配到不同的隶属人体
  • 2020年的End-to-end Object Detection with Transformer直接构造了一个Hungarian Loss,来解决预测目标与真实目标的分配问题
  • 2020年CVPR Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation中多人人体3D距离匹配算法
  • 多目标跟踪领域内的,前后相邻帧匹配问题
  • 在Instance Segmentation领域,这也是很常见的

顾名思义,二分图匹配是一个分配问题 (Assignment Problem)。

Hungarian Algorithm (匈牙利算法) 是在1955年提出的1 .

如果想要彻底理解它,需要先掌握它所涉及到的一些概念,作为先验知识。如下所示:

READ MORE »

Enhance Hexo Next

posted on 2020-05-24

目标:希望让hexo的next主题,能达到vscode markdown enhanced插件的markdown和MathJax的渲染效果, 并同时提高写博客效率

方法:

  • 修改Next相关配置文件
  • 利用Mac的截图和Typora的快速插图动作
  • 利用edge浏览器的集锦功能
READ MORE »
12…6

杨森 & yangsenius

Talk is not cheap

21 日志
25 标签
RSS
GitHub E-Mail
© 2021 杨森 & yangsenius