鼎汇娱乐 > 鼎汇娱乐平台 >
鼎汇娱乐平台

【ImageNet最后的冠军】颜火成:像素级标注数据散

时间: 2018-03-27

1新智元专访  

 编辑:整夏

【新智元导读】2017年,ImageNet ILSVRC正式宣布终结。在较量争论机视觉领域深耕16年的“老兵”颜水成取团队拿下最后冠军,偶合的是,5年前的PASCAL VOC收官之战,冠军也是他。有“水哥”之称的颜水成堪称较量争论机视觉竞赛领域名副其实的常胜将军。在本次接受新智元的专访中,他分享了自己多年来的战役经历和实战经历。目下当今已担负副教授的他,对学生也有很多寄语。颜水成认为,较量争论机视觉的未来属于多标签、像素级、语义级分析。

颜水成,360副总裁、人工智能研究院院少,新加坡国立大学末言教职,作为较量争论机视觉界的宿将,本年他和他的前学生Feng Jiashi助理教学一同带发团队摘得了ImageNet Challenge收官之战的 “皇冠”,同时5年前他异样率领团队摘得了PASCAL VOC支卒之战的“皇冠”。

此次专访,他将带着咱们看:将来较劲争辩机视觉研讨借能怎样玩?

他认为,相似于PASCAL VOC比赛, ImageNet曾经实现任务,它的单标签辨认的中心问题已不再代表已来的主要发作目的目标,确切可以终结了。而较量争论机视觉的未来属于多标签、像素级、语义级剖析。

 

他不认为Web Vision是最终代替ImageNet的数据集,他认为需要一个像素级、多标签的数据集才可能引领较量争论机视觉进入下一个时期。如果像素级分类做好了,不管做任何类别图像理解和语义理解的问题都好办了。

 

虽然目下当今新的数据集有做语义级别分析或部分接洽闭系分析的,但这些数据库存在内涵的局限性。 树立一个像素级和多标签的数据集挑战特别很是大,他愿望在合适的时间点,由至公司或NPO乃至国度出来做这样的事件。

 

对于摘得最后一届ImageNet皇冠的DPN模型,颜水成和他的学生们还从本质上商量了ResNet、DenseNet和DPN之间关系。他认为虽然ResNet可以解释成是DenseNet的一个特例,而DPN也是两者思想的融合,但是因为两者是错位对接的,DPN无法再解释成DenseNet的一种特列,而是一种新的网络结构。

 

对各种图像竞赛,他的观念是:比赛的名次本身实在不重要,重如果“是不是给整个society带来有驾驶的insight”。“雕虫小技”很轻易被人忘记,”群殴”式的模型堆砌不会被人敬仰,”暗害”式的不颁布算法细节的刷榜很难被铭刻。比赛给各类算法供给了一个相对公正的“交手场”,这是有助于技术翻新的。根蒂基础模型和尺度组件是两种罕见的为全部society奉献Insight的体式格局。

 

对于比来水热的边缘较量争论,他认为大家都希看AI最终能落地,2C的量弘远于2B的量,最大的量在手机等终端装备上。所以边缘较量争论是人工智能发展需供决定的一个大趋势。技术上看,今朝有三种体式格局降低边缘较量争论量:第一种是内功―就是特别好的网络结构;第发布种是武器―低精度泄漏表现的方法;第三种是暗器―巧妙用低功耗的网络先断定那部分不需要较量争论的网络。三种方法都是为了增加较量争论量以顺应边缘较量争论,三种相辅相成。

 

最后他报告了自己在较量争论机视觉领域的整整16年,他认为,算法改造了很多代,但是研究的很多问题本身没变。颜水成师启较量争论机视觉巨匠Thomas S. Huang、张宏江、汤晓鸥、李子青等,本在学术界风生水起,却果为老周对智能硬件的热忱而跨入工业界,阅历了学术界到工业界的宏大变更。他更理解若何施展学生各自专长,带出了很多优秀的学生,谁适合产业界谁又合适学术界,他都加以指引。固然他是一个很push的老板,但也被学生亲热地称为“水哥”。

以下是颜水成采访真录,由编纂整理,有删减和调剂。

ImageNet确实可以终结了,较量争论机视觉的未来属于多标签、像素级、语义级

“图像的竞赛还是像素级另外分类更好。如果像素级分割做好了,无论做任何类型图像理解或语义理解的问题都好办了。”

 

新智元:往年以后ImageNet的ILSVRC挑战赛“加入江湖”,能否是注解分类检测任务已经获得相对完美的发挥分析?

 

颜水成:较量争论机视觉竞赛有很长的近况,PASCAL VOC进行了八年,ImageNet也是八年。每一个比赛都承载了大家对技术发展的奢望,同时大家也会逐步发明这些数据库的局限性。

 

2005-2012年,PASCAL VOC特别很是火,但是只有二十类,2010年软弱下手的ImageNet有一千类,因而研究者逐渐转背ImageNet。

 

ImageNet数据库现在最年夜的挑衅是,在分类中每一个图象中只标注了一个主要的物体,以是ImageNet主如果做单个物体的分类跟定位。这不合乎事实天下图像的散布特色,存在范围性,那是ImageNet停止竞赛的一个主要原因。然而ILSVRC比赛外面的物体检测这个义务,自身还不闭幕,前面还会也应当持续下往。

 

我们需要像某些多标签的多媒体数据集如许的数据集,更契合实实图像的情形。

 

新智元:多label的数据集,目下当今有哪些?

 

颜水成:比拟大的有来改过加坡国立大学的NUS-WIDE。但是label也未几,只要81个。

 

新智元:ImageNet为何是单label?

 

颜火成:任务量的题目,多label象征着每个图像对付多个label要做校验。当心是单label只须要断定yes or no。

 

如果是个一千个label的多标签数据集,你的校验就是一千倍,不然仍然会存在过错。

 

新智元:未来较量争论机视觉的竞赛还答应往哪圆面发展呢?

 

颜水成:在我小我私家看来,图像的竞赛还是像素级其它分类更好。如果图像分割做好了,无论做任何类型图像理解或语义理解的问题都好办了。

 

ImageNet客岁有Scene Parsing任务,但遗憾的是今年没继承。如果未来把图像分割作为核心任务,再做任何别的任务就好办多了。

 

真挚好的宰割是齐景的分割。所谓全景分割,就是对每一个像素都有一个标注。这样比ImageNet检测和分类的任务难很多,标注量也特别很是大。

 

生机在合适的时间点有大公司或NPO来做这样的事情。目下当今有新的数据集做语义级别分析或者局部联系关系分析,但这些数据库存在内在的局限性,最终还是要做像素级别。

DPN戴下最后的“皇冠”,本度是ResNet和DenseNet思惟的结合

“ResNet可以解释成是DenseNet的一个特例。但是DPN还暂时无法被解释成是DenseNet的特例。原因情由是...”

新智元:本届比赛中,你地点团队应用了DPN技术,这种技术除用于像ImageNet中“图像识别”、“图像检测”和“图像分割”这三大任务,是不是适适用其余任务或者运用上?

 

颜水成:较量争论机视觉领域的根蒂根基模型相当重要,如AlexNet, NIN, GoogleNet, VGG, ResNet, 以及此次的DPN。不但单限于这三大任务,只有较量争论机视觉相干的而且用深度学习的都可受害于这些根蒂根基模型。

 

新智元:论文中道ResNet是DenseNet的一个惯例,而DPN联合了两种本相的思维,DPN是不是也是一种DenseNet的特例呢?

 

颜水成:这个问题特别非常有意义。ResNet可说明成是DenseNet的一个特例。但是DPN还久时无法被解释成是DenseNet的特例。原因是,把ResNet当做DenseNet特例的时候,两者是有错位的。

ResNet的block和DenseNet的block不是对齐的,而是错位对应的。把ResNet和DenseNet融合在一路的话,它们错位了。我和CHEN Yunpeng都细心分析过,无法把新的DPN再解释成是本来的DenseNet的结构。

 

其内在的公道性我们用三角形来做个类比,DenseNet可以算作等边直角三角形,ResNet是个中一个标的目的的特例。如果合适地拼接,可以构成别的一个等边三角形,但也可能拼接成一个正方形。DPN属于后者,因为错位拼接,最后的模型不再是DenseNet。

 

下一个ImageNet:根本上还是需要有一个像素级标注的数据集

“涉及到语义,ground-truth往往不reliable,很多标注达不成共识,这让研究的难度删加很多。”

新智元:ImageNet已离别,目下当古出现了 Visual Genome、Web Vision这样的结合语义和常识的图像数据集,您认为是不是意味着语义和知识的理解是下一个趋势?视觉和天然说话处理是不是会殊途同归?

 

颜水成:起首,波及到语义的时候,易度比ImageNet的分类任务年夜很多。面前目今他日做语义级其余懂得,一种是摸索图像块之间的语义关联,另有一种是用一段话去描写图像。这时候候候不再是一个个标签,而是伺候的序列组开。这个空间和图像空间二者融会在一路,其内涵维量就比之前增添了很多。维度的增长,意味着练习所需要的数据量就更多。

 

做图像理解和语义理解的期冀是纷歧样的。ImageNet分类的问题,是给图像一个label或者一个框,只要这一千个标签分类做的还不错,大家就可能接收。涉及到语义层面,即便像Image Caption 这样的任务,人们都对你最后说出来这句话有着特别很是高的冀望,人们盼望这些话是有价值的,不是单调有意义的,例如“一个棵树中间有一朵花”这种话对一般人来说没有太大价值。

 

总的来讲,当跋及语义理解,问题就会变得加倍复纯,需要的数据量也比以前大很多。但是输入的结果却常常价值特别很是无限。

 

新智元:目下当今有没有好一点的办法做像素级标注数据?

 

颜水成:比较好的体式格局是有一些数据标注公司和互联网巨子甚至国家参加进来。例如专项本钱的投入,让巨子出数据并做好数据的荡涤,而国家出钱让社会上专门的标注公司一起把这件事情做好。就国家的新一代人工智能发展计划中提到:把数据作为一种根蒂根基平台扶植。

 

新智元:技巧上有甚么算法能够帮助天生如许的数据?

 

颜水成:这是可能的。比方前用已有的数据用死成模型标注数据,而后再用野生微调。如许可以很好的加多数据标注所用的时光,到达智能标注的后果。

 

新智元:对于语义相关数据集,标注的难度是什么?

 

颜水成:比喻说,用一句话描述图像,每个人的描述可能有比较大的差异。这样ground truth就没有那末reliable,很多标注达不成共鸣。这样带来的间接问题是算法成果利害的评价就不再尽对可托了。

 

新智元:既然都是仁者睹仁的,那语义级识别有什么应用呢?

 

颜水成:利用太多了。以网络速率的发展为根蒂根基,当前网络数据中会有很多及时视频流。但是人已经无奈标注了,产生图像和视频的速度太快了。这时候候就需要很多较量争论机视觉的算法,能对图像/视频发生有意思的文本描述,人去搜寻图像和推举给适合的用户的时候就有价值了。

  

新智元:您认为谁能替换ImageNet?

 

颜水成:很多人的见解多是Web Vision。我私家的见地是,基本上仍是需要有一个像素级标注的数据散,在这个基础上各类图像理解和语义理解的问题就好办了。

竞赛就是交锋场:如果你能贡献Insight,为何不“刷榜”?

“比赛名次本身不重要,重要的是能可给整个society带来有价值的insight”

新智元:有人在知乎批评,远几年的ImageNet获奖步队都是用的深度进修,招致比赛的新意降落,您怎么看待这一说法?听说您的团队在五年内曾7次染指PASCAL VOC 和ILSVRC的世界冠军和亚军奖项。同时有一些媒体提到这类比赛的时候就说人人是刷分,您怎么看刷分辩法?

 

颜水成:比赛名次本身不重要,重要的是是否给整个society带来有价值的insight。雕虫小技”很容易被人遗记,”群殴”式的模型堆砌不会被人敬佩,”暗杀”式的不公布算法细节的刷榜很难被铭记。比赛给各种算法提供了一个相对公平的“比武场”,这是有助于技术创新的。我小我公家感到最少有两类结果可以被认为是有Insight的,一类是根蒂根基模型,好比AlexNet, GoogleNet, VGG, ResNet以及本年的DPN, 另外一类是深度学习的标准模块,比如1x1 卷积 和 Batch-normalization。

  

如果你在刷榜的同时还为society贡献了你的insight,那么为什么不刷?

 

新智元:您怎么看待比赛给原创和创新带来什么好和坏的力气?

 

颜水成:我认为对创新还是特别很是有价值的。任何一个领域,原创和创新需要一个仄台去展示去证实,就像交手一样,需要一个正式的、外界所承认的场所,如果在这个场合做的比较好,那么就能够很好的证明你的才能。算法也是一样,如果各自搜集各自的数据做测试,就没有可比性了。目下当今有一个固定命据集,他人已经做了实现了,我只要要把自己的完成做出来,就可以证明有用性了,省去了研究者重现他人算法的艰苦。所以这种竞赛对于立异和首创的速度起到了增进感化。

 

边缘较量争论模型的“内功”、“武器”和“暗器”

“网络好...这是硬功妇,是内功;低粗度流露表示...就像兵器;巧妙去失落不需要较量争论的部门网络:就像暗器。这三种方法是相辅相成的”

新智元:DPN是下性能、低资源的一种模型,是不是实用于移动终端?

 

颜水成:任何一种网络结构都可以用在移动端,只不外会针对移动端特点对网络结构进止特别的计划,例如ResNet,AlexNet、GoogleNet,我们都在移动端用过。

 

新智元:DPN的比赛争论度下降了良多,是否是由于这类网络拓扑结构更好?实质上,改良机能或许削减姿势耗费是没有是重要正在于劣化收集的拓扑构造?

 

颜水成:在移动端,减速有很多款式格式,我小我私人倾向总结成三种:

 

1.   网络好:设计一种结构好的网络,小批参数与得很好的结果,这是硬工夫,是内功;

 

2.  低精度透露表现:把数据从32/64位透露表现降到更少位的透露表现,就像武器;

  

3.  奇妙去失落不需要较量争论的局部网络:就像暗器。

 

便像我们的论文《More is Less: A More Complicated Network with Less Inference Complexity》里里的工做,特地为挪动端做的设想。我们把网络结构变得更庞杂,用low cost的网络来决议哪些地位的卷积不必算,降低了线上推理时辰所需要的较劲争论量。

 

这三种方式是相反相成的,一种可以辅助别的两种,各人每每同维度降低较量争论量。

 

新智元:比来边沿较量争论比较炽热,您怎样对待AI模型往移动端发展,这是不是是一个实在的趋势?

 

颜水成:驱除完整是由人工智能收展的需要决定的。大师皆盼望终极能落地,一种是2B,一种是2C,2B的量临时不是特别大。

 

您念每年的移动终端比方手机的量有若干,要人工智能降天的话,最佳在手机上。这样就要满意较量争论资源的限度请求,充足应用硬件较量争论的特面,为专门的硬件做定造化加快。

较量争论机视觉的十多少载,研究的问题出变太多

“新加坡国立大学候任校长陈永财曾问我在工业界怎么,我的答复是:tiring but exciting”

新智元:您是什么时候进部属手进进较量争论机视觉范畴?可以道谈这些年研究CV,您的最大领会嘛?

 

颜水成:我做较量争论机视觉是从2001年入手下手,十六年整了。我的第一位导师是李子青教授,厥后跟张宏江博士做较量争论机视觉和多媒体,在微软亚洲研究院待了好不多三年半。

 

新智元:十六年最大的体会是什么?

 

其实较量争论机视觉研究的问题变化不大,比如人脸分析的贪图问题,十六年前都在研究了。但是方法最少经历了三代发展:最早是做子空间分析和风行分析,谁人时间段涌现了很多子空间学习算法,例如很多PCA+LDA的变种。第二代就是由马毅教授引领的,稀少和low-rank。最后就是深度学习的呈现,把整个领域带到了另外一个新的level。

 

新智元:您入职偶虎360已经快要两年了,你对这段经历有什么感受?有无达到您现在进入工业界的目的或者是不是吻合您的预期?

 

颜水成:我昔时加入360最吸收我的是智能硬件这一起,硬硬件结合是较量争论机视觉的一个大标的目的。

 

企业界和学术界的差别很大,我也花了不少时间来顺应。新加坡国立大学候任校长陈永财曾问我在工业界怎样,我的回问是:tiring but exciting。从前的这段时间大部分都是九点半之后才回家,一周大多工作六天。

 

特别前沿的至多半年以后才会斟酌落地的研究领域我们会跟学术界配合,经过进程联合试验室做研究。例如跟新加坡国立大学Feng Jiashi传授组立结合实验室,在企业研究院的团队主要存眷业务线上详细的需要,用AI给现有营业赋能,同时跟营业部分一起孵化新的AI产物。

 

新智元:我们懂得到你有许多优秀的先生,可以先容一下他们嘛?有哪些您以为特殊优良的?

 

颜水成:作为教授对招出去的学生都是爱好的,经由几年进修之后,每一小我都有特此外处所。有些在工业界特别很是合适,有些则在学术界更合适。我会给他们做明白的指引。如果说谁最优秀的话,分享一个小故事。

 

我的专士后导师Thomas S. Huang客岁八十大寿,很多学生去庆祝,他提早告知人人,说会在迟宴的时候发表谁是他最优秀的学生。非常吊胃心。

 

最后晚宴上他特别很是骄傲地宣布,”all my students are my best students”。

 

我深认为然。我也很荣幸自己的学生都特别很是优秀。我带了一批学生到工业界,他们都曾在各种视觉竞赛中拿到冠军/最好结果,同时也有很多学生和博士后在米国、新加坡、中国任职(助理/副)教授。从2008动手动手,前后已有跨越100人曾或正在新加坡国立大学的Learning & Vision组学习。

先生和学生的关联是绝对简略的,我在新减坡国破大教的时候,始终夸大slogan: Let’s work hard together! 我一曲信任,等本人的学生分开研究组时,假如脚里有一份干货谦满的CV, 相对不会指责老板的Push。

【号中】新智元正在禁止新一轮应聘,飞往智能宇宙的最好飞船,还有N个坐位

点击浏览本文可检查职位细目,等待你的参加~