工控网首页
>

应用设计

>

人脑是怎样认知图像的?

人脑是怎样认知图像的?

2013/10/23 16:14:12
在许多科幻电影中都会看到,机器人健步如飞,寻找和发现敌人,比我们人类看的远、看的准,力大无比,智慧超群,总是在最危险的时候挽救人类。其实,这些目前还仅仅是科幻,在现实世界中办不到。原因之一就是我们还不能“教”会机器人像我们一样认知景物。
为什么我们不教会机器人像人类一样认知景物呢?
不是不想教,而是我们迄今还没有搞清楚人类视觉系统工作机理,更谈不上将此机理转变成可计算的认知模型应用于机器人视觉了。
人们在认知景物时,常常寻找它与其它事物的相同与不同之处,根据使用目的进行分类,人脑的这种思维能力就构成了模式和识别的能力。
所谓模式,是指若干元素或成分按一定关系形成某种刺激结构,也可以说模式是刺激的组合。当人们能够确认他所知觉的某个模式是什么时,将它与其他模式区分开来,这就是模式识别。
例如,有人想把一大批图片分成人物、动物、风景、建筑物、其他等五种类型分别保管,上述五种类型就是五个类别,也就是五个不同的模式,分类的过程叫做模式识别。
模式有简有繁,繁杂的模式往往是由多个子模式组成。认知心理学家西蒙认为:“人们在解决数学问题时,大多数是通过模式识别来解决的,首先要识别眼前的问题属于哪一类,然后以此为索引在记忆储存中提取相应的知识,这就是模式识别。”
我们之所以关心模式识别认知理论,是因为它是建立图像(景物)理解数学模型的思想源泉。例如:
传统的模式识别理论有人把它分为五类:模板匹配模式;原型匹配模式;特征分析模式;结构描述模式;傅里叶模式。现在图像理解中主要的数学处理方法,几乎都是源于五种传统模式识别理论而建立的,或是基于它们的变形。
近二十多年来新提出的模式识别理论有人把它分为五种:视觉计算理论;注意的特征整合理论;成分识别理论;相互作用激活理论;视觉拓扑理论。其中,马尔(Marr)的视觉计算理论是当前计算机(机器人)视觉的主流理论。其它的理论,也被众多探索者们作为创新的源泉。
然而,无论上述那一种模式识别理论,都存在着或多或少的片面性,迄今为止尚未形成一个较具有说服力的、普遍认可的模式识别理论。这正是制约图像识别(计算机视觉)数学模型发展的根本所在。
下面我们将各种模式识别理论分别介绍之。
人脑是怎样认知图像的?——模板匹配模式(传统模式识别之一)
这个模型最早是针对机器的模式识别而提出来的,后来被用来解释人的模式识别。
它的核心思想是认为在人的长时记忆中,贮存着许多各式各样的过去在生活中形成的外部模式的袖珍复本。这些袖珍复本即称作模板(Template),它们与外部的模式有一对一的对应关系;当一个刺激作用于人的感官时,刺激信息得到编码并与已贮存的各种模板进行比较,然后作出决定,看哪一个模板与刺激有最佳的匹配,就把这个刺激确认为与那个模板相同。这样,模式就得到识别了。由于每个模板都与一定的意义及其他的信息相联系,受到识别的模式便得到解释或其他的加工。例如,当我们看一个字母A,视网膜接收的信息便传到大脑,刺激信息在脑中得到相应的编码,并与记忆中贮存的各式各样的模板进行比较;通过决策过程判定它与模板A有最佳的匹配,于是字母A就得到识别;而且我们还可以知道,它是英文字母表中的第一个字母,或是考试得到的最好的分数等等。由此可见,模式识别是一个一系列连续阶段的信息加工过程。
然而现实世界输入视觉系统的景物是复杂的。就拿字符“F”来说,输入“F”字符可能是拉伸的、压缩的、旋转的、歪扭的、断裂的,等等,这使得模板匹配工作变得困难和复杂起来。
主要困难有两个:一是三维景物的匹配;而是集成物体的匹配。
一个圆环可以在三维空间内可以旋转形成上图中图形。不难看出,当物体旋转后会失去一部分信息。此时模板模式对旋转后的图形是判断为椭圆呢?还是圆?
当把一大堆物体,比如几十本书,无规则的放在一起时,面对重叠的物体图像如何进行模板匹配呢?

人脑是怎样认知图像的?——原型匹配模型(传统模式识别之二)
这个假说可看作是针对模板说的不足而提出来的。原型说的突出特点是,它认为在记忆中贮存的不是与外部模式有一对一关系的模板,而是原型(Prototype)。原型不是某一个特定模式的内部复本。它被看作一类客体的内部表征,即一个类型或范畴的所有个体的概括表征。这种原型反映一类客体具有的基本特征。
例如,人们看到各种不同外形的飞机,而带有两个翅膀的长筒可作为飞机的原型。因此,照原型说看来,在模式识别过程中,外部刺激只需与原型进行比较,而且由于原型是一种概括表征,这种比较不要求严格的准确匹配,而只需近似的匹配即可。当刺激与某一原型有最近似的匹配,即可将该刺激纳入此原型所代表的范畴,从而得到识别。
所以,即使某一范畴的个体之间存在着外形、大小等方面的差异,所有这些个体都可与原型相匹配而得到识别。这就意味着,只要存在相应的原型,新的、不熟悉的模式也是可以识别的。这样,原型匹配模式不仅可以减轻记忆的负担,而且也使人的模式识别更加灵活,更能适应环境的变化。
该模型认为:模式识别的基本过程就是通过将当前刺激与记忆中的有关原型进行匹配,从而获得当前刺激意义的过程。原型不是事物的复本,而是事物概括性特征及其关系。
对于原型匹配模型来说,关键之处在于是否存在这种原型。目前这仍是一个有争议的课题。
另外,原型匹配模型只含有自下而上加工,而没有自上而下加工,这显然是一个缺陷。与模板匹配模型相比,自上而下加工对原型匹配似乎更加重要。

人脑是怎样认知图像的?——特征分析模式(传统模式识别之三)
前面已经说过,模式是由若干元素或成分按一定关系构成的。这些元素或成分可称为特征,而其关系有时也称为特征。特征说认为,模式可分解为诸特征。
例如,一个大写的英文字母A可以分解为下列特征(见下图):两条斜线、一条水平线和3个锐角。这3个锐角实际上表明这些线段的关系,即两条斜线相交和水平线与两条斜线相接。
Lindsay和Norman(1977)指出,构成所有26个英文字母的特征共有7种,即垂直线、水平线、斜线、直角、锐角、连续曲线和不连续曲线,如F有一条垂直线、两条水平线和3个直角;P有与F一样的特征,外加一条不连续曲线;R有与P一样的特征,另有一条斜线,等等。
Gibson(1969)也曾就英文字母的特征提出过类似的看法,但区分出12种特征。
照特征说看来,特征和特征分析在模式识别中起着关键的作用。其认为外部刺激在人的长时记忆中,是以其各种特征来表征的,在模式识别过程中,首先要对刺激的特征进行分析,也即抽取刺激的有关特征,然后将这些抽取的特征加以合并,再与长时记忆中的各种刺激的特征进行比较,一旦获得最佳的匹配,外部刺激就被识别了。这就是一般的特征分析模型。  
特征说所强调的特征,不管它在长时记忆中的编码形式是怎样的,其地位和作用看起来类似模板说中的模板。
Anderson(1980)指出,这种特征似可看作微型模板。这个看法是有一定道理的。也许可以说,特征是一种局部的部件模板。但是特征说毕竟不同于模板说,并且具有一定的优点。
首先,依据刺激的特征和关系进行识别,就可以不管刺激的大小、方位等其他细节,避开预加工的困难和负担,使识别有更强的适应性。
其次,同样的特征可以出现在许多不同的模式中,必然要极大地减轻记忆的负担。
第三,由于需要获得刺激的组成成分信息,即抽取必要的特征和关系,再加以综合,才能进行识别,这使模式识别过程可带有更多的学习色彩。这一点看来是极重要的。应当说,特征分析模型是含有较多的学习可能性的。
还可以预料,当不同的模式具有一些共同的特征时,就会使识别发生困难,甚至出现错误,将这些模式混淆起来。在人的实际知觉中,确实常常出现这些情况。这方面的事实也是支持特征说的有力的证据。对此曾进行过有关的实验研究。
特征分析模式是根据图像特征实现视觉再现。该模式首先是从图像中提取特征,而特征是依各种图像而千差万别的。因此特征的提取涉及面很广,与识别对象的各种物理、形态的性能都有关系。垂直线、水平线、曲线、角、交点、孔等都可以作为特征,因此产生了各种各样的特殊方法来抽取特征。均值、方差、信息量、相关系数、绝对值等也可以作为特征,这样就涉及到大量的特征计算。
特征分析模式还有两个难以克服的困难问题:一个是如何选取合理的特征去表示自然界的图像;另一个是如何确定所选特征之间的相互关系。
设想识别一只鸟,这时可以定义鸟的特征是:羽毛、翅膀、尾巴、鸟头和鸟脚。问题是识别羽毛、翅膀、尾巴、鸟头和鸟脚之类并不比识别一只完整的鸟容易。当然也可以将垂直线、水平线、曲线、角和圆作为鸟的特征。问题是这时要选取许许多多这类特征,而这类特征也可以用来描述小狗小猫,更何况至今无人用这类特征去描述自然界的复杂景物。
事实上所选取特征之间的相互关系也是个非常复杂的问题.特征所处的位置,特征之间相互形成的走向,特征与特征的相互干扰等等,以及阴影、叠合、掩盖等,都会影响视觉识别的最后结果。
特征分析模式在识别字符和简单几何图形中精度高。尤其是识别人脸;生物学的实验说明,人的头脑中存在选择物体的某些特性的专门机构。

人脑是怎样认知图像的?——傅里叶模式(传统模式识别之四)
  
傅立叶模式认为,人脑长时记忆存储的是图像形状的傅立叶转换模式,而不是图像形状的原形。傅立叶变换的实质是将视网膜得到的图像的密度矩阵分解成一定频率上的信号。也就是说,把在真实世界看到的图像通过一个变换而转变到频率空间去,从而可以在频率空间看到原来在真实世界看不到的许多特征,并根据这些特征进行分析与识别。
傅立叶模式的优点是:
当图像在一定范围内变化时,其傅立叶变换后的某些量仍然没有变。图像平移不影响其傅立叶变换的幅度。换句话说,只要知道一个图像的傅立叶变换的幅度,则无论这个图像如何平移,都能根据原来的傅立叶变换幅度进行这一图像的识别。
当一个图像旋转后,其傅立叶谱的形状没有变,而且傅立叶谱的方向跟着旋转一个相同角度。这样,只要知道一个图像的傅立叶谱,则这一图像无论怎样旋转,都能被同一傅立叶谱识别。
傅立叶模式的另一个优点是实现方便。尤其是快速傅立叶变化,使得计算速度很快。
傅立叶模式存在三个难以克服的困难:
首先是傅立叶变化对整个图像的变换,若图像由若干个部分组成,则经傅立叶变换后的谱不能指出那些谱是对应图像的那一部分。
傅立叶变换的另一个致命问题是:图像的任何一小部分有一个无规则的变动,都会引起傅立叶谱的激烈变化。
人脑是怎样认知图像的?——结构描述模式(传统模式识别之五)
  
结构描述模式一般用图来表示,图的节点表示图像某一部分或某一特性,图的节点之间用有向线段相联,说明图像各部分或各特性之间的关系。
图像特征可以是亮度、颜色、纹理、大小、取向、形状等等,特征的描述可以是文字的、数字的、也可以是确定的、模糊的。
图像各部分或特性之间的关系可以是包含、邻接、方向、距离等等
结构描述模式有四个优点:
首先是这种描述的图像,一般不容易丢失必要的信息。这些必要的信息包括图像各部分及各部分的特征,还包括这些特征之间的相互关系的信息。
第二个优点是整体的图像可以方便地分成几个部分来描述,分成几个部分来描述后,仍然不丢失整体与部分的信息。
第三个优点是一种结构描述方法可以用于表示一类物体。
第四个优点是结构描述用到的信息可以供进一步推理用。
总之,结构描述模式是个灵活、实用的模式。
结构描述模式的问题:
迄今没有形成完整的理论。对于比较复杂的图像,其特征与关系描述的常常不能确定性,造成了实际应用上的困难。视觉识别的整个心理过程是如何按照结构描述模式进行的,这还是一个需要探讨的问题。  
小结:
1. 传统的五种模式都没有认真区分视觉识别的初始阶段与视觉认知整个阶段之间的不同,从而难以考虑如何从视知觉得到的信息进行重构的问题。
2. 五种模式都不太注意所提出的模式所要解决的具体问题,从而对于视觉如何从二维信息得到三维信息的问题没有提出解决方案。
人脑是怎样认知图像的?——视觉计算理论(最新模式识别之一)
从七十年代以来,随着认知心理学自身的发展,认知心理学关于模式识别的研究在取向上出现了某些重要的变化。一些认知心理学家继续在物理符号系统假设的基础上进行研究,探讨计算机和人的识别模式的特点;而另一些认知心理学家则转向用神经网络的思想来研究识别模式的问题。下面介绍的一些模型是近十多年来有重要影响的理论模型。
视觉计算理论(computational theory of vision)是在20世纪70年代由马尔(David Marr)提出的。1982发表代表作《视觉计算理论》。
马尔认为,视觉就是要对外部世界的图像(iamge)构成有效的符号描述,它的核心问题是要从图像的结构推导出外部世界的结构。视觉从图像开始,经过一系列的处理和转换,最后达到对外部现实世界的认识。
三个重要概念:
表征(representation):指能把某些客体或几类信息表达清楚的一种形式化系统,以及说明该系统如何行使其职能的若干规则。使用某一表征描述某一实体所得的结果,就是该实体在这种表征下的一个描述。
处理(process):是指某种操作,它促使事物的转换。视觉从接收图像到认识一个在空间内排列的、完整的物体,需要经过一系列的表征阶段。从一种表征转换为另一种表征,必须借助于某些处理过程。
零交叉(zero crossing)代表明暗度的不连续变化或突然变化,是形成物体轮廓的基础。对零交叉的检测就是视觉系统对二维表面轮廓或边界的检测。
人和机器的最终目的:了解一个场景或一个图像的意义。马尔把视觉图像的形成划分为三个阶段。阶段如下:
⑴二维基素图(2-D sketch):视觉过程的第一阶段,由输入图像而获得基素图。视觉的这一阶段也称为早期视觉。所谓基素图主要指图像中强度变化剧烈处的位置及其几何分布和组织结构,其中用到的基元包括斑点、端点、边缘片断、有效线段、线段组、曲线组织、边界等。这些基元都是在检测零交叉的基础上产生的。
这一阶段的目的在于把原始二维图像中的重要信息更清楚地表示出来。
⑵ 2.5维要素图:视觉过程的第二阶段,通过符号处理,将线条、点和斑点以不同的方式组织起来而获得2.5维图。视觉过程的这一阶段也称为中期视觉。所谓2.5维图指的是在以观察者为中心的坐标系中,可见表面的法线方向、大致的深度以及它们的不连续轮廓等,其中用到的基元包括可见表面上各点的法线方向、和各点离观察者的距离(深度)、深度上的不连续点、表面法线方向上的不连续点等等。由于2.5维图中包含了深度的信息,因而比二维要多,但还不是真正的三维表示,所以得名2.5维图。
视觉的这一阶段,按马尔的理论,是由一系列相对独立的处理模块组成的。这些处理模块包括:体现、运动、由表面明暗恢复形状、由表面轮廓线恢复形状、由表面纹理恢复形状等。它的作用是揭示一个图像的表面特征。马尔声称,早期视觉加工的目标就是要建立一个2.5维的要素图,这是把一个表面解释为一个特定的物体或一组物体之前的最后一步。
⑶三维模型表征(3-D model representation):视觉过程的第三阶段,由输入图像、基素图、2.5维图而获得物体的三维表示。视觉过程的这一阶段,也称为后期视觉。所谓物体的三维表示指的是在以物体为中心的坐标系中,用含有体积基元(即表示形状所占体积的基元)和面积基元的模块化分层次表象,描述形状和形状的空间组织形式,其表征包括容积、大小和形状。
当三维模型表征建立起来时,其最终结果是对我们能够区别的物体的一种独特的描述。
评论:
⑴马尔的视觉理论把视觉研究从描述水平提高到数理科学的严密水平,因而它一出现就深受神经科学家、人工智能专家和认知心理学家的推崇。
⑵批评:马尔对视觉的解释主要集中在视觉加工的早期阶段;除要素图以外,他设想的各种表征还没有得到神经生理学的证明。他把知识的作用限制在视觉加工的晚期阶段,也引起一些人的怀疑。还有人认为,知觉开始于大范围拓扑性质的提取,而不是对个别特征的分析。人的视觉系统的功能具有拓扑性,它注重整体性质而忽略局部性质,因而对视觉的计算性质提出了尖锐的挑战。

投诉建议

提交

查看更多评论
其他资讯

查看更多

助力企业恢复“战斗状态”:MyMRO我的万物集·固安捷升级开工场景方案

车规MOSFET技术确保功率开关管的可靠性和强电流处理能力

未来十年, 化工企业应如何提高资源效率及减少运营中的碳足迹?

2023年制造业“开门红”,抢滩大湾区市场锁定DMP工博会

2023钢铁展洽会4月全新起航 将在日照触发更多商机