成员自1984年以来

了解更多

AIA-Advanced Vision+Imaging已转变为Advanced Automation协会,该协会是全188jinbaobo org球领先的视觉+成像、机器人、运动控制和工业AI行业自动化行业协会。

根据以下文件提交的内容:

工业:
N/A

应用程序:
另外另外

人脸和手势跟踪应用为计算机视觉提供了积极的信号

发布于2020年10月2日

作者:Dan McCarthy,特约编辑

虽然计算机在过去的30年里已经变得更加智能化,但它们并没有变得更加敏感。他们仍然在很大程度上依赖于人类来迈出接触的第一步。尽管Siri、Alexa和其他计算机语音助理,大多数人机交互(HCI)仍然涉及几十年前的技术:鼠标、键盘和触摸屏。虽然语音助手为我们提供了一种与计算机打交道的新方式,但人脸和手势识别技术有望扩大计算机与我们打交道的方式。

虽然有几种技术可以让计算机“看到”人类的特征和手势,但计算机视觉很可能是这一领域的驱动力。研究公司MarketsandMarkets预测,全球面部识别技术市场将翻一番以上,从2019年的32亿美元增加到2024年的70亿美元,复合年增长率(CAGR)为16.6%。

该公司分别跟踪手势识别,并预测从2017年到2022年,该公司将以29.63%的复合年增长率增长,届时该公司预测,该市场将达到近190亿美元。这些数字为基于视觉的深度传感技术带来了巨大的增长机会,尤其是那些能够找到最小化系统成本和占地面积的技术。

用3D摄像机面对现实

面部识别通常与安全应用程序相关联,这些应用程序旨在从大量人脸数据集中区分个人,这些数据集要么是结构化的(如执法数据库),要么是非结构化的(如拥挤的机场)。但在人机交互的背景下,比如让智能手机能够正确识别主人,面部识别可以采用相对简单的嵌入式成像技术。

关键字是“适度”。三星Galaxy Note 8是首款将面部识别作为一项有用的安全功能集成在一起的智能手机,利用设备内置的图像传感器构建用户面部的二维图像地图。然后,它将这些细节与嵌入的红外虹膜扫描传感器的数据结合起来。尽管采用了双传感器设计,但在Note 8上市后,一群黑客很快证明,其2D面部识别传感器可能会被5米外200毫米镜头的数码相机捕捉到的图像欺骗。

苹果公司的Face ID系统——部署在该公司的iPhone X系列上——采用了一种更安全、但更昂贵的3D方法。它利用红外摄像机、深度传感器和点状投影仪来绘制用户脸上的3万个点。然后,嵌入式软件会创建一个人工3D扫描,而这要比用照片进行黑客攻击困难得多。小米、OPPO和华为的智能手机型号也采用了类似的3D扫描方法,使用红外发射器创建面部的点云。

看到如此多的中国手机制造商青睐更安全的3D技术,应该不足为奇,因为中国公民越来越依赖自己的手机在销售点进行购买。事实上,在中国,面部识别已经超越了手机,在中国,越来越多的公民可以通过展示自己的脸来购买商品、购买地铁票或入住酒店。此类应用尚未在西方扎根。但正如我们在12月强调的那样,太平洋彼岸的零售商和营销人员正在利用基于视觉的面部识别来收集商业智能并实现独特的客户体验。

骨架跟踪

虽然面部识别(通常)比较静态捕获模式和静态存储模式,手势识别系统必须处理复杂的动态人类动作。这些系统包括通过控制器手套追踪固定的手势,以及微软Xbox Kinect系统的全身骨骼追踪。Kinect现在已经不存在了,但它的基本架构仍然是基于视觉的手势识别系统的象征。它通过VGA摄像头、基于近红外发射器的深度传感器和单色CMOS传感器的应用来捕捉3D运动。

今天,大多数基于视觉的骨骼追踪工作继续建立在红外光和深度传感器上,以捕捉人类四肢的关节点以及它们彼此之间的相对位置。使用任何类型的深度摄像机都可以使骨骼跟踪系统消除重叠或闭塞物体或四肢之间的歧义。它还减少了不同照明条件的影响。然后,图像分析软件可以在所有识别的关节之间画线,形成一个动态运动的整体。骨骼追踪不需要应用于全身。它可能专注于单手手指的运动。

显然,系统复杂性、计算量和功耗都与骨骼系统必须跟踪的内容成比例增加,这对在紧凑型消费电子产品中嵌入手势跟踪提出了挑战。作为回应,半导体供应商正在设计在芯片级集成跟踪软件的高速ASIC或DSP芯片。

但即使是如今智能手机上的2D传感器也已被证明能够用于基本但有用的手势跟踪应用程序。

三维跟踪

三星的SelfieType项目在今年的消费电子展(CES)上成为头条新闻,因为S10智能手机的10-MP前置摄像头和本机电脑芯片足以实现隐形投影仪键盘。SelfieType本质上是一款手势识别应用程序,它允许你像显示器一样支撑手机,然后在手机正前方的任何平面上“键入”,就好像你的指尖上有一个QWERTY键盘一样。手机摄像头和专有的人工智能引擎将你的手指动作转换成文本。

与SelfieType一样引人注目的是,大多数基于视觉的手势识别开发者仍将长期致力于基于结构光、立体成像或飞行时间技术的3D深度传感。所有的光源都利用近红外光源来支持不同的光照条件,大多数都采用带通滤波器来增强图像,只允许红外发射器的特定波长到达探测器。

为手势跟踪和其他应用而设计的深度传感器已经开始出现在智能手机上。大多数情况下,这依赖于立体技术,通过比较两个嵌入式传感器捕获的图像数据的差异,在逐像素的基础上解决图像深度问题。但索尼、LUCID/Helios和其他公司的更复杂的飞行时间技术开始出现在三星、OPPO、Honor和LG的高端智能手机上。

手势识别技术也在汽车应用领域崭露头角。例如,索尼的深度感知飞行时间(ToF)传感器现在为宝马7系的手势识别功能提供动力,允许司机提高或降低收音机音量,接听或拒绝电话,设置导航回家,以及进行其他控制。

在CES的另一项发展中,Cerence展示了其Drive平台,这是一个基于视觉的系统,旨在升级驾驶体验。除了支持面部识别之外,比如,当特定用户爬上驾驶座并拨接他们喜欢的播放列表时,该系统还能识别他们的眼球运动、手势和声音命令,以简化控制。例如,司机可以向一边瞥一眼,然后说:“关上那个窗户”,或者指着车外的一个地标,从汽车的语音助手那里询问更多有关它的信息。

竖起大拇指看风景

迄今为止,使计算机能够识别和跟踪人类特征所带来的希望仍然大于利润。除了这里列出的应用之外,研究人员正在探索非接触控制在增强和虚拟现实系统、手术剧场、工业自动化、航空航天和国防领域的潜力。

在硬件方面,视觉组件已经为许多应用的成功提供了坚实的基础,特别是随着供应商不断开发更具成本效益、具有更高分辨率和景深的紧凑型传感器。限制因素——特别是手势跟踪——可能归结为执行复杂的图像分析、运动建模和准确解释人类手势所需的模式识别所需的计算能力。然而,随着视觉工程师对神经网络和深度学习的理解不断发展,他们也将很好地帮助解决这些挑战。