计算机也会看手语

以手势表现人的意图是一个非常自然的方式,人类在数千年的发展中已经形成了大量的、通用的手势。一个简单的手势蕴涵着丰富的信息,人与人可以通过手势传达大量的信息。除了人们日常生活中的一些通用手势外,对于特定领域还有一批相关手势,包含不同领域的相关信息。比如聋哑人使用的手语就是一种系统化的特殊手势,它是由手形动作辅之以表情姿势而构成的比较稳定的表达系统,是一种靠动作/视觉进行交际的特殊语言。

  在用常见的手势进行交流时,人们很容易就能互相理解,在经过学习之后,聋哑人或是正常人都可以运用手语进行交流。不过,想象一下,当你对计算机(或机器)做一个手势,它就能领会你的意图会是怎样的情景呢?如果计算机(或机器)看得懂手语,又意味着什么呢?姑且不管实现这样的人机交流有何深远的意义,还是先让我们来探究一下这样的可行性吧,想想看得懂手语的计算机(或机器)能有什么用途。

  

  人机交互:从呆板到员活

  

  人类之间的交流往往声情并茂,既采用自然语言(口语、书面语言),还广泛采用人体语言(表情、体势、手势)。与人类之间的交流相比,人机交互就显得呆板多了。以计算机的输入方式为例,人要向计算机下达指令,最常见的方式还是通过键盘输入。当然,手写输入也正为许多人所接受和喜爱,语音输入的研究也进行得热火朝天,最初单一而呆板的输入方式已经得到了扩展。然而,科学研究是永无止境的,人体语言这种简单快捷的信息交流方式得到了很多研究者的关注,他们想,能不能把这种灵活的信息交流方式也引进人机交互中呢?

  于是研究人员展开了对人体语言理解的研究。人体语言的感知、人体语言与自然语言的信息融合对提高计算机的人类语言理解水平,加强人机接口的可实用性有着积极的意义。手语(手势)是人体语言的一个非常重要的组成部分,它是包含信息量最多的一种人体语言,它与语言、书面语等自然语言的表达能力相同。因而完全可以把手语作为人机交互的一种手段,它具有很强的视觉效果,生动、形象、直观。可见,将手势运用于计算机能够很好地改善人机交互的效率。

  

  计算机怎样识别手势?

  

  从不同的角度可以对手势进行不同的分类。分为交互性手势和操作性手势,前者手的运动表示特定的信息(如乐队指挥),靠视觉来感知,后者不表达任何信息(如弹琴);分为自主性手势和非自主性手势,后者需要与语音配合用来加强或补充某些信息(如演讲者用手势描述动作、空间结构等信息),分为离心手势和向心手势,前者直接针对说话人,有明确的交流意图,后者只是反应说话人的情绪和内心的愿望。

  手势的各种组合、运动相当复杂,不过简单来看,手势主要有如下的特点:手是弹性物体,因此同一手势之间差别很大,手有大量冗余信息,由于人识别手势关键是识别手指特征,因此手掌特征是冗余的信息:手的位置是在三维空间,很难定位:手的表面是,非平滑的,容易产生阴影。

  了解了手势的这些特点,就可以在手势研究中对手势做适当的分割、假设和约束。例如,可以给出如下约束:如果整个手处于运动状态,那么手指的运动和状态就不重要,如果手势主要由各手指之间的相对运动构成,那么手就应该处于静止状态。比如鼠标和笔式交互设备就是通过识别手的整体运动来完成人与计算机的交互,但它们不能识别手指的动作,其优点是仅利用软件算法就能实现,适合于一般桌面系统。只有当用鼠标或笔式交互设备的运动或方向变化来传达信息时,才可将鼠标或笔式交互设备看作手势表达工具。笔式交互设备发展很快,它提供了充分的交互信息,如压力、方向、旋转和位置信息,但现有交互主要是简单地替代鼠标。

  计算机识别手势的手段主要有两种:

  1.数据手套。数据手套是虚拟现实系统中广泛使用的传感设备,用户通过数据手套,能做出各种手势向系统发出命令,与虚拟世界进行各种交互操作:比如通过一只与数据手套对应的在计算机屏幕上显示的虚拟手,使用户成为虚拟世界中的一员:抓取物体,如果手套有力反馈,还能让用户感觉到物体的重量和材质等。美国在“洞穴”虚拟系统中就是利用数据手套来研制武器。数据手套的主要优点是可以测定手指的姿势和手势,但是相对而言代价较为昂贵,并且有时会给用户带来不便(如出汗)。

  2.计算机视觉。即利用摄像机输人手势,其优点是不干扰用户,这是一种很有前途的技术,目前有许多研究者致力于此项工作。但在技术上存在很多困难,目前的计算机视觉技术还难以胜任手势识别和理解的任务。

  目前较为实用的手势识别是基于数据手套的,因为数据手套不仅可以输入包括三维空间运动在内的较为全面的手势信息,而且比基于计算机视觉的手势在技术上要容易得多。

  

  更好地为人服务

  

  日本三菱电子研究实验室的研究人员已经使用低成本的视觉系统,通过手势就可以控制一台电视机。由计算机控制的美国航空航天局虚拟太空站也是采用美国Cybernet公司开发的手语识别软件,通过一部架设在顶部的摄像机来追踪指挥者的手势。当系统捕捉到挥手等手势时,就会做出相应的反应,让指挥者像航天员一样在计算机虚拟的阿尔法国际太空站上移动(确切地说是飘动)。

  Cybemet公司的软件还能识别一系列的特定手势,就像工地上的工人或交通警察经常用的那种手语,通过这些手势你能够旋转在虚拟旅行中看到的三维图像,还可以向上或是向下改变你的视角。美国航空航天局正在考虑把这套系统用于真正的太空站,因为笨重的航天服和微重力环境使得鼠标和键盘都变得难以操纵。也许不久之后,航天员就能用简单的手语来控制机器人在太空中抓取物体。

  手语(手势)识别系统的研究还有助于改善和提高聋哑人的生活学习和工作条件,为他们提供更好的服务。同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。另外,手语识别系统的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此,手语识别系统的研究非常有意义。

  在网络通讯已经成为一种重要的通讯手段的今天,研究手语通讯,能使聋哑人更好地融入网络社会,感受科技的进步,更好地为他们服务并且方便其生活。手语作为一种动作语言,它的应用不仅仅局限于聋哑人之间,聋哑人与非聋哑人之间,就是不同语种间正常人的交流都可能应用到动作语言。日本北海道大学的青木由直教授是研究手语通讯的倡导者,他通过建立一个不同语言的手语翻译字典,在Internet上实现丁日语和韩语的手语聊天系统,还研究了日本与中国的手语变换,手语合成的二维及三维动画,以及带有面部表情和嘴唇形状的日语和韩语的手语聊天系统等。

  手语(手势)识别系统研究的内容多,范围广,发展很快,是一个很有前景的研究方向。当然,手语研究较为复杂,而且涉及到多学科多领域,许多问题还有待于进一步的探索。

  [责任编辑] 唐 宇

avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: