元素模板-YS720.COM,打造新闻资讯第一网!

帮助中心 广告联系

云鼎赌场官网_莲花赌场_大总督赌场

热门关键词: as  锵锵3p行   1 z cz

弱监督学习下的商品识别:CVPR 2018细粒度识别挑战赛获胜方案简

来源: 作者:admin 人气: 发布时间:2019-05-10
摘要:[摘要] 细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同时使用全局图像信息与局部特征信息精确识别图像子类别

[摘要]细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同时使用全局图像信息与局部特征信息精确识别图像子类别。细粒度分类是计算机视觉社区最为有趣且有用的开放问题之一,目前还有很多难题期待解决。

原标题:业界 |弱监督学习下的商品识别:CVPR2018细粒度识别挑战赛获胜方案简介

机器之心原创

作者:李亚洲、思源

细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同时使用全局图像信息与局部特征信息精确识别图像子类别。细粒度分类是计算机视觉社区最为有趣且有用的开放问题之一,目前还有很多难题期待解决。

2011年,谷歌开始赞助举办第一届 FGVC Workshop,之后每两年举办一次,到 2017年已经举办了第四届。而由于近年来计算机视觉的快速发展,FGVC活动影响力也越来越大,从去年开始由两年一次改为了一年一次。

从 2017年开始,FGVC开始运作两大挑战赛 iNaturalist与 iMaterialist。今年的 iMaterialist挑战赛是由国内创业公司码隆科技联合 Google Research、美国知名电商 Wish、Kaggle举办。值得一提的是,从今年开始 FGVC开始运行一系列子竞赛:iWildCamp、iFood等。

在 CVPR 2018尾声的 FGVC Workshop上,Google Research资深工程师兼 FGVC5联合主席张晓对 iMaterialist 2018挑战赛与比赛解决方案进行了介绍。

iMaterialist 2018挑战赛

如何让机器识别达到趋近乃至超过人眼判定的精准度?这是许多计算机视觉科学家们一直致力解决的问题。业内也有许多知名的挑战赛,如 ImageNet、COCO等。但与 ImageNet这样的的粗粒度分类竞赛相比,细粒度图像分类技术变得极具挑战性。

以 iMaterialist 2018挑战赛为例,由于细粒度属性的产品看起来非常相似,且商品在不同光线、角度和背景下拍摄,其识别精度也会受到影响。与此同时,不同商品的相似特征,也为机器识别增加了一定的难度:比如家具中的球椅和蛋椅,从某些特定角度来看十分相似;再比如服饰的宝蓝色和松绿色,在不同的光线条件下也存在一定的相似性。

因此,细粒度识别相比于一般的图像分类不仅需要使用图像的整体信息,同时它应该注意到子类别所独有的局部特征。例如从总整体上确定球椅和蛋椅都从属于椅子,然后再根据局部细节确定具体是哪一种椅子。

「但是相关技术具有更大的实际应用意义」码隆科技表示,「它可以直接转化为工业界的应用,提高效率、减少成本」。

在此挑战赛中,码隆科技与美国知名电商平台 Wish提供了所需的服装和家具图像数据,并会在之后向学术界开放 120万带标注的商品图像数据集。此次 iMaterialist 2018挑战赛分为 iMaterialist - Fashion和 iMaterialist - Furniture两个 Track。iMat Furniture 2018的数据集为清理标注过的干净数据,而 iMat Fashion 2018的数据集为未清理过的噪声数据。

经过 3个多月的角逐,iMaterialist 2018挑战赛最终分出胜负:

解决方案

一般细粒度识别可以分为两种,即基于强监督信息的方法和仅使用弱监督信息的方法。基于强监督的细粒度识别通常需要使用边界框和局部标注信息,例如 2014年提出的 Part-based R-CNN利用自底向上的候选区域(region proposals)计算深度卷积特征而实现细粒度识别。这种方法会学习建模局部外观,并加强局部信息之间的几何约束。而 iMaterialist 2018仅使用类别标签,因此是一种弱监督信息的细粒度识别。

其实在这一次竞赛中,很多不同的方法都有它们各自独特的亮点。例如在服装第一名的解决方案中,虽然它也是利用预训练 resnet152、 xception和 dn201等模型并结合 XGBoost做预测,但 Radek Osmulski另外使用了 1 Cycle LR Policy进行精调。

1 Cycle用两个等长的步骤组成一个 cycle:从很小的学习率开始,慢慢增大学习率,然后再慢慢降低回最小值。Radek Osmulski在增大学习率的同时降低动量,这也印证了一个直觉:在训练中,我们希望 SGD可以迅速调整到搜索平坦区域的方向上,因此就应该对新的梯度赋予更大的权重。其实在真实场景中,可以选取如 0.85和 0.95的两个值,在增大学习率的时候,将动量从 0.95降到 0.85,在降低学习率的时候,再将动量重新从 0.85提升回 0.95。

在服装第二名的解决方案中,作者采用了如下网络架构。首先开发者会采用非常多的数据增强方法增加输入图像,例如水平翻转、旋转、高斯模糊、锐化、截取和归一化等方法。然后根据 DenseNet、inception_resnet_v2、Inception-v3、Nasnet和 ResNet-50等九个基础卷积网络抽取输入图像的特征,并分别作出预测。最后结合所有基础模型的预测就能得出非常不错的最终结果。

如前所述细粒度识别需要很多局部图像信息才能实现子类别的判断,谷歌(需要确切身份)Xiao Zhang表示:「选手这些网络最终层的 dimension都比较小(比如 7x7),这种情况下最终做决策时很难兼顾不同尺度的信息。如果需要兼顾局部和整体需要使用 Feature Pyramid Network,或者类似于编码器/解码器的结构在最终层使用高维的预测。」

在整个流程中,Stacking CNN是非常有意思的过程。开发者会将九个模型的预测结果叠加在一起为 9×228×1的张量,其中每一个基础模型提供一张 1×228×1的张量,它代表了模型对 228个类别的预测结果。如下所示当叠加为这种张量后,我们可以使用 3×1的卷积在它上面执行步幅为 1的卷积运算,这种卷积可以学习到各基础模型原始预测之间的相关性。

责任编辑:admin

百度新闻独家出品

新闻由机器选取每5分钟自动更新

手机: 邮箱:
联系电话: 地址: