图像识别技术的原理是什么?

目前最新的图形识别技术是什么?技术原理?
关注者
262
被浏览
573,621

15 个回答

题主上来就想知道最新的技术,有点儿急,咱们还是一步步来吧。

先来点儿前戏。

人类是怎么识别的?当我们看到一个东西,大脑会迅速判断是不是见过这个东西或者类似的东西。这个过程有点儿像搜索,我们把看到的东西和记忆中相同或相类的东西进行匹配,从而识别它。机器的 图像识别也是类似的,通过分类并提取重要特征而排除多余的信息来识别图像 。这就是最大的原理,看起来一点儿都不复杂对不对?

期初人工智能的先驱们也觉得这挺简单,然鹅……

那是1966年的夏天, 人工智能之父Minsky给学生布置了一个暑假作业 :要求学生通过编写一个程序,让计算机告诉我们它通过摄像头看到了什么。于是一大票人从此走上了图像识别的不归路,我想当时学生们的内心肯定是这样的:

毕竟,50多年过去了,这个作业还不能说真正做完……

那么,完成作业的方法是如何一步步升级的呢?

1970s-1980s

到了上世纪七八十年代,Minsky布置的作业算是有了些眉目。现代电子计算机的出现,让计算机有机会尝试回答出它看到了什么东西。

研究人员首先从人类看东西的方法中获得借鉴。当时人们普遍认为,人类能看到并理解事物是因为通过两只眼睛可以立体地观察事物(现在看来当然是极大的误解……)。因此要想让计算机理解它所看到的图像,必须先将事物的三维结构从二维的图像中恢复出来,这就是所谓的 “三维重构”的方法。

人眼三维效果示意图(图片来自网络)

另一个灵感是,人们认为人之所以能识别出一个苹果,是因为人们已经有了先验知识:苹果是红色的、圆的、表面光滑的。如果给机器也建立一个这样的知识库,让机器将看到的图像与之匹配,是否可以让机器识别乃至理解它所看到的东西呢,这是所谓的 “先验知识库”的方 法。

先验知识分解

这套方法只能够提取少数基本特征,实用性当然不高,只能用在某些光学字符识别、工件识别、显微/航空图片的识别等。

1990s

到了上世纪九十年代,图像处理硬件技术有了飞速进步,人们也开始尝试不同的算法,包括 统计方法和局部特征描述符 的引入,使得计算机视觉技术取得了更大的发展,并开始广泛应用于工业领域。

在“先验知识库”的方法中,事物的形状、颜色、表面纹理等特征受到视角和观察环境所影响,在不同角度、不同光线、不同遮挡的情况下会产生变化。因此,研究者的新方法是, 通过局部特征的识别来判断事物,对事物建立一个局部特征索引,即使视角或观察环境发生变化,也能比较准确地匹配上。

局部特征索引示意图

2000s

进入21世纪,得益于互联网兴起和数码相机出现带来的海量数据,加之机器学习方法的广泛应用,计算机视觉发展迅速。以往许多基于规则的处理方式,都被机器学习所替代: 机器自动从海量数据中总结归纳物体的特征,然后进行识别和判断。

这一阶段涌现出了非常多的应用,包括典型的相机人脸检测、安防人脸识别、车牌识别等等。数据的积累还诞生了许多评测数据集,比如权威的人脸识别和人脸比对识别的平台——FDDB和LFW等,其中最有影响力的是ImageNet,包含1400万张已标注的图片,划分在上万个类别里。

基于机器学习的图像识别流程示意

2010以后

到了2010年以后,借助于深度学习的力量,计算机视觉技术得到了爆发增长和产业化。出现了 神经网络图像识别 ,这就是目前比较新的一种图像识别技术了。

它是怎么工作的,我在《财富》杂志上见过一张简明的示意图,把它汉化过来给大家看,算是一目了然了:

来源:http://fortune.com

再举一个医疗影像的图像识别案例,也异曲同工,就是下面这张腾讯觅影对早期肺癌的筛查流程图:

腾讯觅影对早期肺癌的筛查流程

觅影系统会先基于腾讯深度学习技术,对数十万张肺部CT影像数据进行学习分析,获得精准定位可疑结节的能力,实现对良恶性判别,从而帮助提高医生诊断效率和准确率。

通过深度神经网络,各类视觉识别的任务精度都得到了大幅提升。在全球最权威的计算机视觉竞赛ILSVR上,千类物体识别错误率在2011年时还高达25.8%,从2012年引入深度学习之后,后续4年的错误率分别达到了16.4%、11.7%、6.7%、3.7%,出现了显著突破。现在,人脸识别甚至能做到误判率低于百万分之一。

归根结底,机器的图像识别和人类的图像识别原理相近,过程也大同小异。只是技术的进步让机器不但能像人类一样认花认草认物认人,还开始拥有超越人类的识别能力。

比如,我非常期待技术大牛能赶紧开发出口红色号识别软件!!!

女:看看我和昨天有什么不同?
我:嗯……好……好像没什么不同……
女:我换了一支口红呀!你是眼睛瞎了吗?!!
我:哦

女友的口红啊,请放过我的肉眼…………

口红的色号可视化。来源:Github 作者:@羡辙

啊,差点忘了,我还没有女朋友。内牛满面.gif

.

.

.


其他未注明的资料来自腾讯研究院、腾讯云+社区、腾讯觅影。

当前通用图像识别技术可以分为以下两大类:

(1)图像分类:输入一张图像,通过神经网络,输出类别信息。常见的分类任务和示例如下图:

(2)图像检索:需要预先建一个图像特征检索库,然后输入一张图像,通过神经网络,提取特征,然后通过特征检索,返回识别信息。如下图所示:

关于图像分类和图像检索相关技术的介绍和产业落地使用,可以参考下面代码库: