计算机视觉为什么分类失败?人类看见形状 算法看见纹理

  • 时间:
  • 浏览:0

一张图片中的动物轮廓是猫,就说 猫披着大象皮肤纹理,将图片交给人识别,人会说是猫,机会给计算机视觉算法除理,它会说是大象。为什会另另两个 呢?德国研究团队给出另两个 意味着着,一种生活意味着着出乎意料:人类会关注图中对象的特性,深度图学习计算机系统所用的算法不一样,它会研究对象的纹理。

在亲戚亲戚朋友观察一张猫的照片时,往往还都可以加快速度认出这是橘猫还是虎斑猫。此外,图像是删改也有黑白、算不算所处斑点、算不算所处磨损以及褪色等等,也删改也有观察过程中还都可以轻松得到的结论。此外,亲戚亲戚朋友也有发现什么小生灵是蜷缩在枕头上方,还是迅捷地跃上一张台面。总而言之,人类总能不知不觉快速医学会 识别小猫。相比之下,由深度图神经网络驱动的机器视觉系统确实还都可以在一种生活特定清况 下提供优于人类的识别能力,但一旦构图较为罕见、所处噪点机会其它一种生活干扰因素,系统删改也有机会对一张内容明确的图像束手无策。

最近德国一支研究小组发现了当中令人意想只能的意味着着:人类对图像里各对象的特性较为敏感,而深度图学习计算机视觉算法却通常更关注对象的纹理。一种生活发现发表在今年5月举办的国际学习代表大会上,主要强调了人与机器在“思考”土最好的法律法律依据之间的鲜明差异,并阐述了亲戚亲戚朋友的直觉如何误导人工智能。此外,这项研究也暗示了,人类的视觉为什会发展成今天的形式。

拥有大象皮肤的小猫与由钟表构成的飞机

举例来说,深度图学习算法体现为一套神经网络,其中涵盖着成千上万张有猫机会无猫的图像素材。系统还都可以从什么数据当中找到模式,而后利用它来决定如何更好地标记此人 从未见过的图像。网络的架构累似 于人类视觉系统,但建模土最好的法律法律依据更为松散——这是机会,其中的连接层允许网络一步步从图像中提取出这麼抽象的特性。然而,这套系统实际上是一种生活“暗箱”流程,亲戚亲戚朋友只能获得正确答案,却他不知道这答案从何而来。并未参与此项研究的俄勒冈州立大学计算机科学家Thomas Dietterich指出,“亲戚亲戚朋友一直在努力找到使得深度图学习计算机视觉算法得出正确结果的意味着着,以及什么因素有机会干扰一种生活视觉识别能力。”

为了达成一种生活目标,一种生活研究人员刚开始英文英文了了探索,在对图像内容进行修改日后 ,网络会因欺骗而得出如何的结论。亲戚亲戚朋友发现,一种生活非常小的变化删改也有机会意味着着系统删改错误地标记图像中的对象——但一种生活很大的变化,却反而不需要让系统修改其标记内容。与此同时,删改也一种生活生活一种生活专家通过网络进行了回溯,分析了其中单一“神经元”在图像中的响应,并据此为系统学习到的特性生成所谓“激活图集”。

其中计算神经科学家Matthias Bethge实验室的一组科学家,以及来自德国蒂宾根大学的心理物理学家Felix Wichmann采取了更为定性的土最好的法律法律依据。去年,该团队报告称,当亲戚亲戚朋友在利用特定噪声进行干扰除理的图像上训练神经网络时,结果发现神经网络在对所处累似 失真干扰的新图像进行分类方面,表现要优于人类。但假若对什么图像稍微进行一种生活新的模式调整,就还都可以删改骗过网络——即使新的内容扭曲与图中另另两个 所处的扭曲看起来并无不同。

为了解释一种生活结果,研究人员们猜测,也许极低的噪音水平也机会会具有巨大的判定权重。在这方面,纹理似乎是个很不错的线索。Bethge和Wichmann实验室研究生,研究论文第一作者Robert Geirhos指出,“机会长时间上加多量噪音,图像对象的特性因素确实无须会受到不多的影响。但在此人 面,图像中的一种生活局部特性,在上加一丁点噪音因素时也机会变得极度扭曲。”就说 ,亲戚亲戚朋友提出了一种生活巧妙的土最好的法律法律依据,以测试人类与深度图学习系统究竟是如何除理图像的。

Geirhos、Bethge和亲戚亲戚朋友的同事创发明者的故事两幅涵盖相互冲突线索的图像,即对象的特性取自某一物体,纹理则取自另另两个 物体。累似 ,用带裂纹的灰色纹理(大象皮肤)填充在猫的轮廓当中;机会制作小熊纹理的铝罐,乃至由钟面堆叠而成的飞机图形等。利用数百张此类图像,人类仍还都可以根据图像中的特性——猫、熊、飞机等——以极高的准确度进行标记。相比之下,一种生活不同的分类算法则倾向于另一种生活理解土最好的法律法律依据,即给出还都可以反映物体纹理的标记,包括大象、罐头、时钟等。

并未参与此项研究的哥伦比亚大学计算神经科学家Nikolaus Kriegeskorte指出,“这正在改变亲戚亲戚朋友对深度图前馈神经网络还都可以实现视觉识别能力、及其训练过程的理解土最好的法律法律依据。”

奇怪的是,人工智能采取的纹理大于特性的理解土最好的法律法律依据,似乎很有这麼点现实意义。Kriegeskorte表示,“亲戚亲戚朋友确实还都可以把纹理看成是一种生活更精细的特性。”神经系统还都可以更轻松地锁定高精度特性比例:具有纹理信息的像素数,要远远超过构成对象边界的像素数,而神经网络的第一步就说 检测线条与边缘等局部特性。并未参与此项研究的多伦多约克大学计算视觉科学家John Tsotsos指出,“这就说 纹理。所有的线段组都以相同的土最好的法律法律依据进行排列。”

Geirhos和他的同事机会证明,什么局部特性机会足以帮助神经网络完成图像分类任务。事实上,Bethge和该研究的另一位作者,博士后研究员Wieland Brendel在今年5月的大会上也通过一篇论文提到了一种生活点。在这次工作当中,亲戚亲戚朋友构建起一套深度图学习系统,但具体运行土最好的法律法律依据却与深度图学习技术再次出先日后 的分类算法非常累似 ——这更像是一种生活“特性包”。它最初会将图像分割成众多微小的块(累似 于目前的Geirhos等现有模型),但接下来它无须像其它模型那样逐步整合信息并提取高级特性,就说 立即识别出每个小块中的图像内容(「一种生活块中涵盖自行车的因素,另一块当中涵盖鸟的因素」等)。它会将什么决策结果叠上加同时以挑选对象的实际内容(「机会涵盖自行车因素的小块更多,这麼图像展示的就说 自行车」),而删改不考虑不同图块之间的全局空间关系。但就说 一种生活“笨土最好的法律法律依据”,却还都可以以惊人的准确度识别物体对象。

Brendel表示,“一种生活发现挑战了此前亲戚亲戚朋友所认定的,深度图学习技术与原有模型删改不同的假设。很明显……深度图学习仍然代表着一种生活飞跃,就说 不像一种生活人所希望的这麼天翻地覆。”

根据约克大学与多伦多大学博士后研究员Amir Rosenfeld的观点(并未参与此项研究),“亲戚亲戚朋友理解中的神经网络运作土最好的法律法律依据,与确实际运作土最好的法律法律依据之间仍然所处着「巨大的差异」”,其中也包括神经网络对人类行为的qq克隆好友 效果。

Brendel也表达出累似 的观点,他表示亲戚亲戚朋友很容易假设神经网络还都可以像人类一样除理任务,“但亲戚亲戚朋友也忘了、机会说是在刻意忽略其中还所处着别的机会。”

向人类视觉靠近

目前的深度图学习土最好的法律法律依据还都可以将纹理等局部特性整合至更多全局模式当中。Kriegeskorte指出,累似 在谈到特性时,“论文当中提出了令人惊讶、但又非常引人注目的证明,即确实架构还都可以关注特性,但机会仅仅进行训练(对标准图像进行分类),这麼神经网络不需要自动提出特性一种生活概念。”

Geirhos希望看了当团队强迫什么神经模型忽略纹理因素时,会所处如何的结果。该团队采用传统上用于训练分类算法的图像,并以不同的样式对图像加以“绘制”,从而在根本上剥离出有用的纹理信息。当亲戚亲戚朋友在新图像上重新训练每套深度图学习模型时,什么系统刚开始英文英文了了逐步关注更大、更为全局的模式,同时也表现出更累似 于人类的特性偏好。

在采取一种生活土最好的法律法律依据时,算法还都可以更好地分辨涵盖噪音干扰的图像,甚至不需要训练即可识别出其中的内容。Geirhos表示,“基于特性的网络还都可以提供更强大的识别功能。这让亲戚亲戚朋友意识到,对于特定任务,确实是所处「正确的偏见」一种生活概念的。以亲戚亲戚朋友的研究为例,特性偏见还都可以把视觉识别算法推广到更多新颖的场景当中。”

研究还暗示,人类有机会也会自然地产生一种生活偏见;机会对于前所未有机会干扰因素较多的清况 ,特性是一种生活更为健壮的指标,还都可以帮助亲戚亲戚朋友更好地定义此人 看了的内容。人类生活在另两个 三维世界当中,什么都有物体在不同条件、不同深度图之下也有呈现出不同的清况 。而亲戚亲戚朋友的其它感官,累似 触觉,还都可以根据时要完善物体识别能力。就说 ,亲戚亲戚朋友的固有思维就认定特性优先于纹理。(此外,删改也一种生活生活心理学家提出,语言、学习与人类特性偏见之间的联系;当幼儿接受训练时,亲戚亲戚朋友还都可以专门学习一种生活特定类别的单词以更多关注特性因素。这麼一来,亲戚亲戚朋友在后续掌握名词或物体相关词汇时,往往会表现出较超未训练孩子的学习能力。)

Wichamnn表示,这项工作提醒亲戚亲戚朋友“数据会产生远超亲戚亲戚朋友认知的偏见与影响。”这机会删改也有研究人员们第一次面对一种生活问提:人脸识别tcp连接、自动招聘算法以及其它神经网络,此前都机会被证明会过度重视一种生活出人意料的特性。这是机会什么神经网络所使用的训练数据之内,机会所处着根深蒂固的偏见。事实证明,从决策过程当中消除什么无时要的偏见往往非常困难,但Wichmann认为此次新研究展示出新的机会性,也你要对此充满信心。

然而,以便Geirhos的模型机会刚开始英文英文了了关注特性一种生活因素,删改也有机会被图像当中的多量噪音或特定像素变化所干扰——这表明其距离还原人类视觉能力还有很长的道路要走。(同样的,Tsosenos实验室研究生Rosenfeld、Tsotsos以及Markus Solbach最近也发表了研究报告,认为机器学习算法无法像人类那样感知不同图像之间的累似 性。)不过Krigeskorte指出,“通过此项研究,亲戚亲戚朋友终于刚开始英文英文了了触及另两个 实质性问提——计算机视觉识别算法并太难把握住人类大脑当中的一种生活重要机制。”而在Wichmann看来,“在一种生活清况 下,关注数据集机会更为重要。”

多伦多大学计算机科学家Sanja Fidler(并未参与此项研究)也对一种生活观点表示赞同。她解释称,“具体结果,取决于亲戚亲戚朋友还都可以设计出聪明的数据与聪明的任务。”她和她的同事目前正在研究如何为神经网络提供辅助,以帮助网络提取出最重要的特性。受到Geirhos调查结果的启发,亲戚亲戚朋友最近训练出一种生活图像分类算法,其不仅还都可以识别出物体一种生活,同时还上都可以判断什么像素属于其轮廓机会特性的组成要素。该网络在常规对象识别任务中还都可以自动提升判断水平。Fidler指出,“假若完成了一项任务,亲戚亲戚朋友就会自然地在关注当中涵盖挑选性,同时忽略掉其它什么都有不同的因素。但机会面对多个任务,亲戚亲戚朋友机会会发现更多影响要素。什么算法也是这麼。”算法在除理各种任务的过程中会“对不同的信息产生偏见”,这与Geirhos在特性与纹理实验中的发现深度图契合。

Dietterich总结称,所有什么研究都代表着“在深入了解深度图学习中具体步骤与内容方面,另两个 个令人兴奋的阶段。这也许将帮助亲戚亲戚朋友克服一系列当下困扰着亲戚亲戚朋友的局限。就说 ,我非常赞赏此次发布的一系列论文。”