家政服务公司,CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出联系和类比视觉推理数据集RAVEN,微信贷款

选自arXiv

作者:Chi Zhang, Feng Gao, Baoxiong Jia, Yixin Zhu, Song-Chun Zhu

参加:高璇、张倩

前期为机器参加高档推理的作业一向围绕着视觉问答(VQA)打开,但 VQA 所需的推理才能只处于认知才能测验圈的边际。为了打破当时视觉推理才能的极限,UCLA 朱松纯团队依据一项更难的人类视觉推理使命——瑞文测验(RPM,例如《行测》中的图形推理题)构建了联络和类比视觉推理数据集 RAVEN。与之前运用 RPM 评价笼统推理才能的作业不同,他们经过供给结构表征来树立视觉和推理之间的语义联络。经过对结构表征进行联合操作,能够完成新式的笼统推理。

项目地址:http://wellyzhang.github.io/project/raven.html

视觉研讨不只要必要包括怎么从图画中提取信息,一同也是对信息的内部表征实质的探求,然后将其作为决议咱们主意和举动的根底。(David Marr,1982 年 [35])

计算机视觉运用规模十分广泛。一些计算机视觉问题显着是朴实从视觉上「捕获」视觉信息的进程;例如,前期视觉过滤器 [5] 以 primal sketch[13] 作为中心表征,以格局塔规律家政效劳公司,CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出联络和类比视觉推理数据集RAVEN,微信借款(Gestalt law)[24] 作为感知安排。相比之下,其他一乱男宫些视觉问题关于感知图画的要求比较琐碎,但是在联络或类比视觉推理方面能处理更遍及的问题 [1家政效劳公司,CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出联络和类比视觉推理数据集RAVEN,微信借款6]。在这种情况下,视觉组成成为「决议咱们主意和举动的根底」。

屠海峰
大草帽年代

现在,大多数计算机视觉使命都聚集于「捕获」视觉信息的进程;很少有作业重点放在后边的部分——联络或类比的视觉推理。在为人工体系装备推理才能方面,现有的一项作业围绕着视觉问答(VQA)打开 [2,22,48,58,62]。但是,VQA 所需的推理才能只处于认知才能测验圈的边际 [7]。为了打破计算机视觉的极限,乃至人工智能(AI)的极限,在认知才能测验圈的中心,咱们需胸头要规划一个用于丈量人类智能的测验来应战、调试和改善现有的人工体系。

一个十分有用的人类视觉推理才能测验现已幻月狂诗曲开发出来,被称为瑞文测验(Raven's Progressive Matrices,RPM)[28,47,52]。瑞文测验(RPM)是一项广泛运用的非文字推理才能测验,归于渐近性矩阵图。测验者需要在渐进矩阵图中依据直接调查成果进行直接笼统推理。这一测验已得到广泛认可,并被以为与实在智能高度相关 [7]。与 VQA 涂健不同,RPM 直接坐落人类智能中心 [7],是对笼统和结构推理才能的判别 [9],而且描绘了高档智能的界说特征,即流体智能 [21]。

图 1:(a) RPM 示例。其间一项使命是依据结构和类比联络,挑选出最契合逻辑的图画。每个图画都有导游陈严一个底层结构。(b) 具体地说,在该问题中,这是离焰明火珠一个由内而外的架构,外部组成是一个只要一个中心的方针散布,内部组成是一个 22 的网格布局。图莉亚迪桑38分35截图 2.(c) 中的细节列出了 (a) 中的规矩。规矩的各种性质组合起来使这个问题变得难解。正确答案是 7。

图 1 显现了 RPM 问题及其结构表征。供给了由视觉上简略的元素组成的两行图形,一个有必要有用地导出正确的图画结构(图 1(b))和根本规矩(图 1(c)),然后一同推理出最佳的候选图画。就所需的推理水平而言,RPM 或许比 RPM 更难:

为了打破当时视觉体系推理才能的极限,UCLA 朱松纯团队生成了一个新的数据集,以促进该范畴的进一步研讨。他们将这个数据集称为联络和类比视觉推理数据集(RAVEN),以留念 John Raven 创始 RPM 的作业 [47]。综上所述:

RAVEN 数据集自身规划为轻视觉辨认、重推理的方式。金克什么每个图画仅包括一组简略灰度物体,鸿沟明晰没有遮挡。与此一同,规矩是逐行运用的,每个特点魔帝张子陵可有一个规矩,以应对视觉体系在短期回忆和组成成分推理中的首要缺点 [22]。

一个显着的悖论是:在这个组合和结构化的 RPM 问题中,曾经的作业没有供给结构注释(如[3,55])。因而,研讨者开端在 RPM 中树立视觉推理和结构推理之间的语义联络。他们将每个问题实例与特点随机图画语北外星光法(A-SIG)[12,30,43,56,60,61] 的语句相对应,并将数据生成进程分解为两个阶段:第一阶段从预界说的 A-SIG 中对句情侣自拍子进行采样,第二阶段依据语句烘托图画。这种结构化规划使数据集十分多样化,且易于扩展,然后能够在不同的图形装备中进行泛化测验。更重要的是,数据生成流程为他们供给了丰厚的密布注释,尤其是图画空间中的结构。视觉和结构表征之间的这种语义联络,将问题分解为图画了解和树或图级推理,然后有了新的或许 [26,53]。试验证明,选用简略的结构推理模块,将视觉层级的了解和结构层级的推理结合起来,能够薄庭审现场完好视频明显进步模型在 RPM 中的功能。

图 2:RAVEN 创立进程。(b) 说明晰 A-SIG 中运用的语法生成规矩。(c) 显现布局和实体具有相关的特点。(a) 给定随机采样的规矩组合,首要修剪语法树家政效劳公司,CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出联络和类比视觉推理数据集RAVEN,微信借款(修剪通明分支)。然后将图画结构与来自 (b) 的特点值一同采样,用黑色表明,并运用规矩集 (a) 生成单个行。重复该进程三次得到 (d) 中的整个问题矩阵。(e) 最终对束缚特点进行抽样,并在正家政效劳公司,CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出联络和类比视觉推理数据集RAVEN,微信借款确的答案中改动它们家政效劳公司,CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出联络和类比视觉推理数据集RAVEN,微信借款以打破规矩并取得候选答案集。

图 4:引荐的 RAVEN 数据会集 7 种不同图形装备的示例。

表 2:人类受试者和计算机中每个模型的测验准确度。Acc 表明每个模型的均匀精度,其他列显现不同图形装备下的模型精度。L-R 表明左-右,U药帮韩闲-D 张三丰异界游全文阅览表明上-下,O-IC 家政效劳公司,CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出联络和类比视觉推理数据集RAVEN,微信借款表明圆外-圆内,O-IG 表明网外-网内。留意,完美的处理方案能够拜访规矩运算并查找符号问题表征。

论文:RAVEN: A Dataset for Relational and Analogical Vi阿德龙大酒店sual rEasoNing

论文链接:https://arxiv.org/abs/1903.02741

触及初级感知的根本视觉使命(例如物体辨认、检测和追寻)现已取得了明显的发展。不幸的是,就更高档别的视觉问题而言,人工视觉体系与人类智能之间仍存在巨大的功能距离,尤其是推理问题。前期为机器装备高档推理的作业一向围绕着视觉问答(VQA)打开,这是一项将视觉和言语了解联络起来的典型使命。在此项作业中,咱们提出了一个新的数oldgay据集,它依据瑞文测验(RPM),旨在经过将视觉家政效劳公司,CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出联络和类比视觉推理数据集RAVEN,微信借款与结构、联络和类比推理在层级表征中相相关来提高机器智能。与之前运用 RPM 丈量笼统推理的作业不同,咱们经过供给结构表征来树立视觉和推理之间的语义联络。经过对结构表征进行联合操作,能够完成新式的笼统推理。在这个新提出的数据会集,轩辕靖日和闲佑出柜咱们评价了运用现代计算机视觉的机器的推理才能。此外,咱们还供给人类体现作为参阅。最终,咱们经过兼并一个结合视觉了解和结构推理的简略神经模块,在所有模型上都完成了改善。

本文为机器之心编译,转载请联络本大众号取得授权。

开发 计算机 人类
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。