机器视觉的来源和发展

机器视觉的来源和发展

（2025年3月29日更新）

视觉是人类强大的感知方式。它为人们提供了大量关于周围环境的信息，使人们能够有效地与周围环境互动。据统计，80%以上的人类从外部世界接收的信息是通过视觉获得的，50%的大脑皮层参与视觉功能的运行。

芯片采购网专注于整合国内外授权IC代理商现货资源，芯片库存实时查询，行业价格合理，采购方便IC芯片，国内专业芯片采购平台。

有许多有趣的视觉发现，比如螳螂虾的眼睛可以检测到偏振光。人眼和普通相机只能感知光的强度信息，而不能检测光的偏振信息。昆士兰大学的研究人员发现，螳螂虾的复眼(见图1-2)可以检测到偏振光。根据生物医学和光学的理论知识，生物组织的特征与偏振信息有关，因此螳螂虾的眼睛可以诊断生物组织的病变。此外，蜻蜓和其他昆虫有复眼结构（见图1-3）。蜘蛛有很多眼睛。青蛙的眼睛只能看到动态场景，狗对颜色信息的分辨率很低。

图1-2螳螂虾的眼睛

图1-3蜻蜓的眼睛

那么，介绍生物视觉功能后，机器视觉是什么？

机器视觉是自动处理和报告图像是什么的过程，即用于识别图像中的内容，如自动目标识别。

机器视觉一般以计算机为中心，主要由视觉传感器、高速图像采集系统、特殊图像处理系统等模块组成。

根据David A.Forsyth和Jean Ponce计算机视觉的定义是利用几何、物理和学习理论来建立模型，从而使用统计方法来处理数据。它是指在彻底了解相机性能和物理成像过程的基础上，通过简单个像素值的简单推理，将多个图像中可能获得的信息整合成相互关联的整体，确定像素之间的连接，以便相互分离或推断一些形状信息，然后使用几何信息或概率统计来识别对象。

考虑到系统的输入和输出模式，机器视觉系统的输入是图像或图像序列，输出是描述。此外，机器视觉由特征测量和基于这些特征的模式识别两部分组成。

机器视觉不同于图像处理。图像处理的目的是使图像处理后更好。图像处理系统的输出仍然是图像，机器视觉系统的输出是与图像内容相关的信息。图像处理可分为低级图像处理、中级图像处理和高级图像处理。处理内容包括图像增强、图像编码、图像压缩、图像恢复和重构。

发展01机器视觉

图1-4显示了20世纪70年代以来机器视觉发展过程中的一些主题，包括数字图像处理和积木世界，20世纪80年代的卡尔曼滤波器正则化，90年代的图像分割，基于统计的图像处理，以及21世纪计算摄像和机器视觉的深度学习。

图1-4机器视觉发展过程中的一些主题

1.20世纪70年代

机器视觉始于20世纪70年代早期，被视为模拟人类智能并赋予机器人智能行为的感知组成部分。当时，麻省理工大学、斯坦福大学、卡内基等人工智能和机器人的一些早期研究人员·梅隆大学的研究人员认为，解决视觉输入问题应该是解决高水平推理和规划等更困难问题的简单步骤。例如，1966年，麻省理工大学Marvin Minsky让他的本科生Gerald Jay Sussman将相机连接到计算机上，让计算机描述它所看到的。现在，这些看似简单的问题并不容易解决。

20世纪60年代出现了数字图像处理。与现有的数字图像处理领域不同，机器视觉希望从图像中恢复实物的三维结构，从而获得完整的场景理解。场景理解的早期尝试包括提取物体（即积木世界）的边缘，然后从二维线的拓扑结构推断其三维结构。此外，边缘检测也是一个活跃的研究领域。

20世纪70年代，人们还研究了物体的三维建模。Barrow、Tenenbaum与Marr通过表面朝向和阴影恢复三维结构，提出了理解亮度和阴影变化的方法。当时，有一些更定量的机器视觉方法，包括基于特征的三维视觉对应（stereo correspondence）基于亮度的算法和光流（optica lflow）与此同时，关于恢复三维结构和相机运动的研究也开始出现。

另外，David Marr关于(视觉)信息处理系统达的三个层次：

1)计算理论:计算(任务)的目的是什么？已知或可以对这个问题施加的约束是什么？

2)表达和算法:如何表达输入、输出和中间信息？计算预期结果的算法是什么？

3）硬件实现：表达和算法如何反映在实际硬件上，即生物视觉系统或特殊硅片上？相反，硬件约束如何用于指导表达和算法的选择？随着机器视觉对芯片计算能力需求的不断增加，这个问题再次出现JRC代理次变得很重要。

2.20世纪80年代

20世纪80年代，图像金字塔和规模空间开始广泛应用于从粗到精的对应点搜索。20世纪80年代末，图像金字塔开始被一些应用中小波变换所取代。

从X到形状的方法出现在三维视觉重建中，包括从阴影到形状，从光度三维视觉到形状，从纹理到形状，从聚焦到形状。在此期间，探索更准确的边缘和轮廓检测方法是一个活跃的研究领域，包括引入动态进化轮廓跟踪器，如Snake模型。如果将三维视觉、光流、X到形状和边缘检测算法作为变分优化问题进行处理，则可以使用相同的数学框架进行统一描述，并可以使用正则方法来增加鲁棒。此外，20世纪90年代卡尔曼滤波器和三维距离数据（range data）在过去的十年里，处理仍然是一个非常活跃的研究领域。

3.20世纪90年代

视觉发展如下：

1)在识别中使用投影不变量的研究呈爆炸性增长，可以有效地用于从运动到结构的问题。许多最初的研究都是针对投影重建的，它不需要相机校准的结果。与此同时，一些人提出了有效解决近似正交投影问题的因素分解方法，后来扩展到透视投影。该领域开始采用全局优化方法，后来被认为与摄影测量中常用的光束平差法有关。

2)使用颜色和亮度进行精细测量，并将其与精确的辐射传输和形成彩色图像的物理模型相结合。这项工作始于20世纪80年代，形成了一个名为基于物理的视觉（physics-based visio）子领域。

3)光流方法不断改进。

4)在密集三维视觉对应算法方面也取得了很大进展。最大的突破可能是使用图片切割（graph cut）全局优化算法。

5)能产生完整三维表面的多视角立体视觉算法。

6)跟踪算法也得到了很多改进，包括使用活动轮廓方法的轮廓跟踪(如蛇形、粒子滤波和水平集)和基于亮度的跟踪。

7)统计学习方法开始流行，如人脸识别的主要成分分析。

3.21世纪

在21世纪，计算机视觉和计算机图形的交叉越来越明显，特别是在基于图像的建模和绘制的交叉领域。此外，计算摄像发挥着越来越重要的作用，包括光场获取和绘制以及通过多曝光实现的高动态范围成像。目标识别中基于特征的方法（结合学习方法）越来越突出，开发了更高效、更复杂的全球优化问题。

最后一个趋势是复杂机器学习方法在计算机视觉中的应用，特别是近年来，基于深度学习的机器学习方法在图像和视频中的应用。

02机器视觉与其他领域的关系

机器视觉是一门交叉学科，它与许多领域有关，特别是机器视觉和计算机视觉之间的关系，有些学者认为两者是一样的，有些人认为两者是不同的，图1-5显示了计算机视觉、图像处理、人工智能、机器人控制、信号处理、成像等。在相关学科中，人工智能、机器人控制等概念都有明确的定义。成像是表示或重构客观物体形状及相关信息的学科。

图1-5机器视觉与其他领域的关系

图像处理主要基于现有图像生成新图像，可通过噪声抑制、模糊、边缘增强等处理实现。模式识别的主要任务是对模式进行分类。机器视觉的核心问题是从一个或多个图像中生成符号描述。计算机视觉和计算机图形学是一个相互关联和相反的过程。计算机图形学的目的是呈现一些真实或非真实的场景，即通过虚拟建模处理场景，然后使用计算机呈现；计算机视觉是通过收集图像来获取真实场景的信息。

产品与应用：

每日新闻头条：

芯片采购网专注整合国内外授权IC代理商的现货资源，轻松采购IC芯片，是国内专业的芯片采购平台