实现视觉知识表达、推理、学习和应用的技术将是人工智能(AI)2.0取得突破的重要方向之一
2019-10-18 10:43:28 来源:《中国科学报》

人类对世界的认知中,80%的信息来自视觉,人们希望人工智能未来也能像人一样敏锐地观测、认知和预测世界。在中国工程院院士潘云鹤看来,实现视觉知识表达、推理、学习和应用的技术将是人工智能(AI)2.0取得突破的重要方向之一。

近日,潘云鹤首次系统地提出“视觉知识”概念,在接受《中国科学报》专访时对其进行了具体阐述和解释。

《中国科学报》:您提出视觉知识这一概念的背景是什么?

潘云鹤:

视觉处理技术对AI发展有重要影响。

首先,近年来,图像识别水平的快速提升推动了AI热潮的形成。图像识别技术的突破不仅提高了计算机对人脸、文字、指纹及生物特征、医学图片等识别的准确率,而且进一步推动了智能制造等领域的发展。中国科学技术发展战略研究院按技术分类对2018年中美AI企业数量进行了统计,可以看出,提供和应用图像识别技术的企业占一半以上。

其次,传统的知识表达方式有显著缺陷。早期图像识别和计算机视觉建立在图像处理技术之上;深度神经网络的使用以数据驱动的方法来学习特征表达,有效提高了图像分类和识别的准确率。

不过,作为AI知识表达的一种方式,深度神经网络难以解释、不可推理,以及因需大量标识的数据训练网络参数而难以避免地会引入数据偏见等不足。因此,我们需要研究一种全新的知识表达——视觉知识。

这启示我们,数字视觉领域是推动AI发展的重要领域;更好的知识表达是推动数字视觉发展的关键技术;克服深度神经网络缺陷是“视觉知识”研究的关键方向。

《中国科学报》:什么是视觉知识?它有哪些特征?

潘云鹤:

视觉知识是知识表达的一种新形式,它能表达世界的时空结构与变化特征。计算机图形学经过长期发展,提供了视觉知识表达与操作的技术基础。但是,对视觉知识进行表达及其推理等操作,还需在此基础上加以改造与重构。

视觉知识与迄今为止人工智能所用知识表达方法不同。视觉概念具有典型与范畴结构、层次结构与动作结构等要素。视觉概念能构成视觉命题,包括场景结构与动态结构。视觉命题能构成视觉叙事。重构计算机图形学成果可实现视觉知识表达及其推理与操作,重构计算机视觉成果可实现视觉知识学习。

实现视觉知识表达、推理、学习、使用的理论和技术将是AI 2.0取得突破的重要方向之一。

视觉知识因为难以用语言符号表达,曾被统归为常识,而以往AI研究的一大弱点便是视觉知识研究不足。因此,视觉知识的研究与运用将会是AI 2.0的一个重要发展方向。

《中国科学报》:如何构建视觉知识体系?

潘云鹤:

视觉知识体系构建与利用需要解决的首要问题是视觉知识学习,这也是一个知识学习的无人区。建立一个系统的知识体系,往往更需要自顶向下的设计,在这个过程中,诸如3D形状重建等计算机视觉研究成果为系统的视觉知识学习提供了发展土壤。

不过,视觉知识学习要将目标从视觉形状重建进一步深入到视觉知识重建,还需要对现有计算机视觉技术作进一步研究,比如,重建3D形状的层次结构,定位其在概念范畴中的位置等。

除了视觉概念,还要研究视觉命题与视觉叙事的表达和学习。

《中国科学报》:视觉知识有哪些应用?

潘云鹤:

从当前AI热潮中视觉识别技术的广泛渗透,可推知视觉知识的应用极广。这里我举例说明视觉知识的各种应用。

基于知识的识别方法,如用于图像识别。例如“猫”,根据“猫”的视觉概念的典型与范畴等,使用综合推理方法自动生成猫的范畴内外各种图像大数据,并根据范畴内外自动标识为正、负范例。然后,用上述范例大数据训练多层神经网络,最后,用训练过的多层神经网络识别图像。

事实上,视觉知识有着独特的优点,能够提供综合生成能力、时空比较能力和形象显示能力,而这些正是字符知识所缺乏的重要能力。它们能在创造、预测和人机融合等方面为AI新发展提供基础动力。

《中国科学报》:关于视觉知识,未来,我们需要关注的重点还有哪些?

潘云鹤:

建设视觉知识词典将是十分重要的,这是一个巨大而实用的知识平台和数据平台,应当联合全球人工智能、计算机图形学和计算机视觉科技工作者共同建设。为了顺利而高效地完成视觉知识词典的建设,群智组织模式不可或缺。