图像分类:一张图像中是否包含某种物体
物体检测识别:若细分该任务可得到两个子任务,即目标检测,与目标识别,首先检测是视觉感知得第一步,它尽可能搜索出图像中某一块存在目标(形状、位置)。而目标识别类似于图像分类,用于判决当前找到得图像块得目标具体是什么类别。
语义分割:按对象得内容进行图像得分割,分割的依据是内容,即对象类别。
实例分割:按对象个体进行分割,分割的依据是单个目标。
滑动窗口——为什么要有候选区域?既然目标是在图像中的某一区域,那么最直接的方法就是滑窗法(sliding window approach),就是遍历图像的所有区域,用不同大小的窗口在整个图像上滑动,那么就会产生所有的矩形区域,然后再后续排查,思路很简单,但是开销巨大。
region proposal(RP):候选区域
IOU:region proposal与Ground Truth的窗口的交集比并集的比值,相当于准确率。‘
SPP:Spatial Pyramid Pooling 空间金字塔采样 在pooing的过程中计算pooling后的结果对应的两个像素点映射到feature map上所占的范围,然后在那个范围中进行max或者average。
ROI Pooling:就是将一个个大小不同的box矩形框,都映射到大小为w*h的矩形框。
GT box:Ground Truth box
如上图所示,绿色的框为飞机的Ground Truth,红色的框是提取的Region Proposal。那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5),那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调,使得经过微调后的窗口跟Ground Truth更接近,这样岂不是定位会更准确。
带孔卷积:就是不增加参数数量和model复杂度的情况下扩大卷积的感受域,用dialation_rate设置扩张率。类似于形态学操作中的膨胀。
如下图所示,(a)是普通的3×33×3卷积,其视野就是3×33×3,(b)是扩张率为2,此时视野变成7×77×7,(c)扩张率为4时,视野扩大为15×1515×15,但是视野的特征更稀疏了。
后面遇见会继续完善。。。。。