图像识别精度困扰当今人工智能的一个看不见的挑战
想象一下,您正在滚动浏览手机上的照片,并看到一张您一开始无法识别的图像。沙发上看起来可能有什么毛茸茸的东西;它可以是枕头或外套吗?几秒钟后,它发出咔嗒声——当然!那个毛茸茸的球是你朋友的猫,摩卡。虽然你的一些照片可以立即被理解,但为什么这张猫的照片要困难得多?
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员惊讶地发现,尽管理解视觉数据在医疗保健、交通运输、家用设备等关键领域至关重要,但人类对图像识别困难的概念几乎完全被忽视了。被忽略。基于深度学习的人工智能进步的主要驱动力之一是数据集,但我们对数据如何推动大规模深度学习的进步知之甚少,除了越大越好。
在需要理解视觉数据的现实应用中,人类的表现优于对象识别模型,尽管模型在当前数据集上表现良好,包括那些明确设计用于挑战具有去偏差图像或分布变化的机器的模型。这个问题仍然存在,部分原因是我们没有关于图像或数据集的绝对难度的指导。如果不控制用于评估的图像的难度,就很难客观地评估人类水平表现的进展,覆盖人类能力的范围,并增加数据集带来的挑战。
为了填补这一知识空白,麻省理工学院电气工程和计算机科学博士生、CSAIL附属机构DavidMayo深入研究了图像数据集的深层世界,探索为什么某些图像比其他图像更难被人类和机器识别。“有些图像本质上需要更长的时间才能识别,因此了解大脑在此过程中的活动及其与机器学习模型的关系至关重要。也许我们当前的模型中缺少复杂的神经回路或独特的机制,只有在用具有挑战性的视觉刺激进行测试时才可见。这种探索对于理解和增强机器视觉模型至关重要,”该工作的一篇新论文的主要作者梅奥说。
这导致了一种新指标的开发,即“最短观看时间”(MVT),它根据一个人在做出正确识别之前需要观看图像的时间来量化识别图像的难度。
使用ImageNet(机器学习中流行的数据集)的子集和ObjectNet(旨在测试对象识别鲁棒性的数据集),团队向参与者展示了不同持续时间的图像,从短至17毫秒到长至10秒,并询问他们从50个选项中选择正确的对象。
经过超过200,000次图像呈现试验,该团队发现包括ObjectNet在内的现有测试集似乎偏向于更简单、更短的MVT图像,其中绝大多数基准性能来自于人类容易理解的图像。
该项目发现了模型性能的有趣趋势——特别是与缩放相关的趋势。较大的模型在更简单的图像上显示出相当大的改进,但在更具挑战性的图像上进展较小。CLIP模型融合了语言和视觉,在朝着更接近人类识别的方向发展时脱颖而出。
“传统上,对象识别数据集偏向于不太复杂的图像,这种做法导致模型性能指标膨胀,不能真正反映模型的稳健性或其处理复杂视觉任务的能力。我们的研究表明,较硬的图像会带来更严峻的挑战,导致标准评估中通常未考虑到的分布变化,”梅奥说。
“我们发布了按难度标记的图像集以及自动计算MVT的工具,使MVT能够添加到现有基准测试中并扩展到各种应用程序。其中包括在部署现实世界系统之前测量测试集难度,发现图像难度的神经相关性,以及改进对象识别技术以缩小基准与现实世界性能之间的差距。”
“我最大的收获之一是我们现在有了另一个维度来评估模型。我们希望模型能够识别任何图像,即使——也许尤其是——人类很难识别。我们是第一个量化这意味着什么的人。我们的结果表明,这不仅不是当今最先进的情况,而且我们当前的评估方法无法告诉我们何时会出现这种情况,因为标准数据集非常倾向于简单的图像。”麻省理工学院电气工程和计算机科学专业的研究生杰西·卡明斯(JesseCummings)与梅奥是该论文的共同第一作者。
从ObjectNet到MVT
几年前,该项目背后的团队发现了机器学习领域的一个重大挑战:模型正在努力处理分布外的图像,或者在训练数据中没有得到很好体现的图像。输入ObjectNet,这是一个由从现实生活中收集的图像组成的数据集。
该数据集通过消除其他基准中存在的虚假相关性(例如物体与其背景之间的相关性),帮助阐明了机器学习模型和人类识别能力之间的性能差距。ObjectNet阐明了机器视觉模型在数据集上和实际应用中的性能之间的差距,鼓励许多研究人员和开发人员使用,从而提高了模型性能。
快进到现在,该团队通过MVT进一步推进了他们的研究。与注重绝对性能的传统方法不同,这种新方法通过将模型的响应与最简单和最难的图像进行对比来评估模型的性能。
该研究进一步探讨了如何解释图像难度并测试其与人类视觉处理的相似性。使用c分数、预测深度和对抗鲁棒性等指标,该团队发现网络对较难的图像的处理方式有所不同。“虽然存在明显的趋势,例如更简单的图像变得更典型,但科学界仍然无法对图像难度进行全面的语义解释,”梅奥说。
例如,在医疗保健领域,理解视觉复杂性的相关性变得更加明显。人工智能模型解读X射线等医学图像的能力取决于图像的多样性和难度分布。研究人员主张对专为专业人士量身定制的难度分布进行细致分析,确保人工智能系统根据专家标准而不是外行解释进行评估。
梅奥和卡明斯目前也在研究视觉识别的神经学基础,探讨大脑在处理简单图像和具有挑战性的图像时是否表现出不同的活动。这项研究旨在揭示复杂的图像是否会招募通常与视觉处理无关的额外大脑区域,希望有助于揭开我们的大脑如何准确有效地解码视觉世界的神秘面纱。
迈向人类水平的表现
展望未来,研究人员不仅专注于探索增强人工智能对图像难度的预测能力的方法。该团队正在努力识别与观看时间难度的相关性,以便生成更难或更简单的图像版本。