工业检测应用中可扩展的微处理器视觉系统的评估框架__工业检测应用中可扩展的微处理器视觉系统的评估框架

工业检测应用中可扩展的微处理器视觉系统的评估框架

2007/5/31 18:14:00

来源：Alacron Imaging systems employed in demanding industrial and military applications, such as computer vision and automatic target recognition, typically require real-time high-performance computing resources. While these systems have traditionally relied on proprietary architectures and custom components, recent advances in highperformance general-purpose microprocessor technology have produced an abundance of low cost components suitable for use in high-performance computing systems. 简介一般来说，在诸如机器视觉、目标自动识别等要求严格的工业和军事应用场合中使用的成像系统都需要有实时高性能的计算处理能力。一直以来，这些成像系统依靠着专有的体系结构和定制的组件实现各自的性能，但近年来高性能通用微处理器技术的进步已经使人们生产出了大量可应用于高性能处理系统的低成本元件。高性能成像系统尤其是使用了可扩展的多处理器体系结构的系统的设计的一个普遍缺陷就是不能平衡好计算带宽和带I/O接口的存储带宽之间的关系。最近，带有大容量内部高速缓存和高性能外部存储器接口的微处理器的引入，使得设计一个计算和存储带宽之间得到平衡的高性能成像系统成为现实。微处理器利用了板级存储器和I/O体系结构，使用这种微处理器及存储器的系统有一个重要性能。系统并不扩展存储器总线带宽，同样的，微处理器的引入一般不是为了改善性能，在提升了一些性能后它们会达到一个极限值。另外，I/O带宽在总体性能上发挥着重要的作用。这篇文章的目的是为了引入一个框架，使得开发者能够选择一个能提供实时视觉应用场合所需要的性能和可扩展性的微处理器系统。在可编程成像系统的选择问题上，我们重点考虑下面三个方面：（ａ）系统是“本机”的还是采用协处理器模型？（ｂ）哪种处理器在平衡应用中的处理和I/O关系上更具恰当性？（ｃ）总成本是多少？为了更好的理解我们的假设，我们将对四种不同的处理器在元件检测应用中表现出的性能进行分析。　微处理器评估为了体现各种具有尖端技术的微处理器的优点，我们选择了四种新型微处理器进行评估：Analog Devices公司的21160Hammerhead，Intel®（P3-450）,Philips公司的半导体TM1300 TriMedia和德州仪器（TI）的C6701．你也可以使用这种框架评估其他的处理器。下表给出了所选处理器的重要特性。假定各种处理器在测试计算性能时是相互独立的。集群模式设计将很快使总线达到饱和——也就是说增加额外的处理器并不能达到提升速度以提高计算性能的目的。做出这个假定是因为大多数多处理器为了达到可扩展性，其协处理器板已经独立开或采用本地存储器设计。唯一采用非本地存储器设计的是PⅢ-450,引入它是为了与其他处理器进行比较。

上表的性能参数在它们各自公司的文献中可以找到，它们是以优化了的汇编语言程序为基础的。除了Intel使用复杂指令系统计算机（CISC）外，所有的微处理器都使用了超长指令集架构（VLIW）体系结构。每个CPU的胶连逻辑成本体现了连接处理器与外在系统所需额外组件的成本。应用描述：产品线上的元件工业检测当产品经过检测站时，检测站检测产品的颜色和形状，然后，根据标准来判断是否接受这件产品。元件以任意角度安置在传送器上以供成像。检测算法检测连接颜色和形状的区域，并处理在这些区域内的数据，再把结果应用于神经网络识别器中。产品在快速驶下生产线的时候被检测。照相机以每秒３０张的速度收集图像以确保在每张图像上有至少有５０％交叠，从而确保每一部分至少有一次被完全显现。图像规格是512×512，24位彩色（ＲＧＢ）．

算法流程图上图给出了检测图像缺陷的算法。原始图像通过过滤去掉噪声，并平滑由于传送器上的角度问题而造成的部分颜色和明亮度的变化。图像转化为HLS模型，以便再通过两个16位输入8位输出的查找表转化成单色。HLS模型中，色度（H）和饱和度（S）由颜色决定，而明亮度（L）主要由能被光照到的物体表面的方位决定。这两要素在8位单色像（图表中为M）的结构中被编码。这一步骤可以用于检测颜色错误和总体方向错误，因而显得比较重要。在对图像进行去斑降噪之后，开始对图像进行连接性的分析。分析结果用于从单色和彩色图像中选择区域，以获得另外的特性。这一步一般会减少百分之七十的像素数量。所选区域用单色进行量测，彩色则用于发展每个区域的特性。获得的特性是颜色，通过单色图像、连接框、边界圆、周长、凸包和面积等要素修正。这些特性作为神经网络识别器的输入。之所以选择神经网络识别器是因为要处理的图像区域相当复杂。统计型的识别器难以进行计算，而且对噪声敏感。神经网络使用100个输入，在第一个隐藏层使用200个节点，第二层使用100个节点，输出层（通过/未通过）使用一个节点。选择处理系统的下一步就是要使用下面所选的微处理器进行评估算法：Analog Devices公司的21160Hammerhead，Intel®（P3-450）,Philips公司的半导体TM1300 TriMedia和德州仪器（TI）的C6701。每种处理器的编码已经优化过，每种类型单个处理器的执行时间也已测过。下表给出了每个处理器执行每一步算法的结果。

分析与结果所有时间单位为毫秒从上表中，我们可以发现每种处理器都有各自的优点。若以总时间来论，则ＰⅢ-450无疑是最佳的。其中两种处理器需要保持与照相机同步的图像速度。所有情况下，系统需要另外一个处理器来提供操作系统支持，如磁盘驱动和用户界面。PⅢ的计算能力似乎不够理想，但在限制于存储器总线性能的应用中，它仍然是个相当出色的处理器。PⅢ的存储器总线速度是其他处理器的两倍，TM1300是个例外，PⅢ的存储器总线速度只是它的1.4倍（800MB/s VS 572MB/s）。 Philips和TI的处理器拥有许多处理单元，这使得它们具有相当好的总体性能，尽管在时钟速度上它们远慢于Intel PⅢ-450。Philips的TM1300使用一个视觉端口对处理器进行直接的读取和显示。Intel PⅢ-450、Analog Devices 21160和TI C6701则使用DMA控制器进行读取和显示。

上图给出了随着处理器的增加可达到的帧速率。从图中可以看出，TM1300和PⅢ-450在此应用中性能相当，居于最前，TMS320C6701稍慢些，ADI21160则是最慢的。Philip TM1300、Analog Devices 21160和TI C6701都需要两个处理器以保持图像速率。但它们（在PC上的协处理器板上）的成本却远低于PⅢ-450。一个多处理器的PⅢ-450系统需要花费几千美元（大约3000美元）——价格高于基本的单处理器PC. Philip TM1300、Analog Devices 21160和TI C6701的协处理器系统最低只需1500美元。另外，随着额外的处理器的增加，PⅢ的效率开始降低。多处理器PⅢ系统中使用的共享多处理器（SMP）总线因为处理器间的总线冲突从而降低了存储器密集应用的性能。随着额外处理器的增加，冲突更加突出，效率也就更低了。装有超过4个PⅢ处理器的系统并不多见。连接处理器到照相机需要有特定的硬件。基于21160和TMS320C6701的解决方案所要花的成本要高于基于TriMedia和PⅢ的解决方案所花的成本。结论以元件检测应用为例，我们发现在存储器带宽发挥重要作用的应用场合，奔腾PⅢ-450无疑是个极为出色的处理器。然而，基于集群的体系结构却产生了负面影响，因为存储器总线饱和严重制约了将来的可扩展性（如PⅢ-450）。相反，基于本地存储器体系解决方案的处理器却能随着处理器的增加而线性地提高其处理量。 Intel PⅢ受其外围逻辑（PC）的限制，在一些应用场合不能发挥其性能。尽管AGP总线的使用会改善这种情况，但其SMP设计最终将限制其扩展性。因此，在要求严格的视觉应用场合尤其是需要用于将来扩展的应用场合，最可行的办法是保留一个更易扩展、有更高吞吐量的协处理器板，最终使得成本低于本地解决方案所花的成本。