在本章节

CVPR 2019|旷视斩获6冠,彰显深度学习算法引擎优势

近日,全球计算机视觉顶会 CVPR 2019在美国长滩拉开帷幕,超过9200位相关人士共赴盛会,推进计算机视觉技术的交流与落地。旷视通过 Oral、Poster、Workshop、Demo、Booth等形式,同世界分享在计算机视觉理论与应用领域的最新进展。值得一提的是,在 CVPR 2019的3项挑战赛中,旷视最终击败 Facebook、通用动力、戴姆勒等国内外一线科技巨头/知名高校,共计斩获6项世界冠军!

此行,旷视共参加 CVPR 2019 WAD(Workshop on Autonomous Driving)、CVPR 2019 FGVC(Workshop on Fine-Grained Visual Categorization)、CVPR 2019 NTIRE(New Trends in Image Restoration and Enhancement workshop)3项挑战赛,拿下6项冠军,涵盖自动驾驶、新零售、智能手机、3D等众多领域。

旷视斩获 CVPR 2019挑战赛6项世界冠军

CVPR 2019 WAD nuScenes 3D Detection Challenge

nuScenes 3D Detection Challenge冠军奖牌

CVPR 2019 WAD是自动驾驶领域的权威比赛,其中 nuScenes比赛方向是 3D detection,旨在通过模型分析 3D激光雷达/相机数据,赋予自动驾驶汽车侦测物体的能力,保障行驶安全。

nuScenes不仅需要同时识别10类物体(相比 KITTI只需预测单个类别),还加入了速度和属性的预测,而且需要解决严重的类别不均衡问题,因此任务难度大幅提高,因而也更具有实际意义。

比赛中,旷视设计了一个多尺度、多任务的模型,借助新型检测网络,结合均衡采样等策略,极大提高了模型的检测精度,尤其是在小物体上。由最终结果可知,相较于官方 Baseline 45.3%,旷视的模型高出18个点,达到63.3%,比第二名也高出8.8个点,击败一系列顶尖团队,一举夺魁。

CVPR 2019 WAD Detection/Tracking Domain Adaptation Challenge

Detection Domain Adaptation Challenge冠军奖牌

Detection Domain Adaptation Challenge是 CVPR 2019 WAD的另一项挑战赛,旨在对自动驾驶场景下的环境(二维图像信息)进行感知,今年的比赛主要解决领域自适应问题,即美国道路场景和中国道路场景的相互适应。

具体而言,即利用7万张美国道路场景数据进行训练,对近15万张中国道路场景进行测试,不允许使用任何标注测试数据,只允许使用 ImageNet进行预训练。图像本身的不一致之外,不同天气、不同道路以及复杂的交通状况都给任务增加了额外挑战,同时也为实际使用提供了可能性。

旷视基于自身积累的检测算法之外,加之复现/使用的最前沿的检测算法(比如 NAS-FPN、Cascade RCNN),进而对 Cascade RCNN做出一系列改进,使得网络在不同 IOU阈值下的检测结果都有一定涨幅;同时,为了解决两个数据集之间数据分布不一致的问题,旷视还利用合并训练、AdaBN、Data Distillation等技术手段,最终在测试集上高出第二名深兰科技1.7个点,同时在所有单类别上取得最高结果。

另外,在 Tracking Domain Adaptation Challenge上,旷视使用 Online方法进行多目标跟踪,即在高精度检测结果的基础上,使用 IOU Tracker进行跟踪;跟踪过程中,改进和调试影响结果的多种因素,最终也在 Tracking任务上取得第一。
CVPR 2019 FGVC是细粒度识别领域最权威的赛事,iNaturalist Challenge是此项领域的旗舰比赛,旨在让计算机自动识别物体的精细类别,它不仅要求识别1000多个品种的动、植物,还要识别其在不同发育期的状态;Herbarium Challenge则要解决开花植物野牡丹科的物种分类问题,所采用的图像集仅包括保存于腊叶标本上的干标本图像。

除了大模型/大分辨率图图像进行训练、测试等常规操作外,旷视还集成最前沿细粒度技术成果(比如 Coarse-to-fine hierarchical classification、iSQRT、Class-Balanced Focal Loss等),同时创造性提出“后验概率重校准”技术,即通过先验知识对模型输出的后验概率进行校准,极大提高拥有较少训练图像的长尾类别的识别准确率,两项比赛结果均高出第2名近1个点,一举夺魁。

在业务方面,商品识别、菜品识别、缺陷检测、生产线零件识别、车型/车辆识别等均是细粒度图像分析技术的应用,目前已应用于产品研发中。

在 iNaturalist上,旷视击败了通用动力等顶尖团队;在 Herbarium上,旷视击败了大连理工(上年冠军)、瑞典自然历史博物馆、Facebook。

CVPR 2019 NTIRE Real Image Denosing Challenge

Real Image Denosing Challenge冠军奖牌

CVPR 2019 NTIRE Real Image Denosing Challenge基于新近的智能手机图像降噪数据集 SIDD,它由很多真实的噪声图像及其相应的 ground truth组成,且每幅图像都有以原始传感器数据(raw)和标准 RBG(sRGB)格式存储的两个版本。
图像降噪一直是旷视研究院“手机摄影超画质”的技术储备项目,自第一版原型诞生以后不断迭代;其中,针对原始传感器数据(raw)的图像降噪更是整个项目的基础技术。

这次比赛中,旷视研究院提出针对 raw图像的基于 U-Net框架的“拜尔阵列归一化与保列增广”方法。尽管不同输入图像间的数据格式存在差异,但是,为保持网络输入一致性,旷视精心设计了一种数据预处理方法,使得相同的网络工作应用到具有不同拜耳模式的输入上,从而在保证性能的前提下用更大的图像集合训练网络。

本次冠军算法已成功落地于 OPPO Reno 10倍变焦版。OPPO Reno 10倍变焦版搭载了基于旷视超画质技术研发的“超清夜景2.0”功能,能够为用户提供非同凡响的夜拍体验。这也是旷视超画质技术首次运用在大规模量产机型上。

旷视成立早期便上线了自主原创的深度学习框架——Brain++。这是一套由旷视研究院自主原创的算法引擎,致力于从云、端、芯三个方面全面赋能物理世界,以实现对世界的感知、控制、优化。Brain++不仅助力旷视拿下世界冠军,还将推动智能汽车、商品识别、手机影像处理、智慧农业等应用领域的进步发展。