人机交互风格及其发展趋势

UML软件工程组织

火龙果软件工程技术中心

更多技术资源文章，讲座 ,培训，咨询请访问 www.uml.org.cn

人机交互风格及其发展趋势

2008-09-04 来源：网络

引言

人们对人机系统关系的认识问题，伴随着人机关系基本观点的变化由来已久。在计算机出现的不足半个世纪的时间里，人机交互技术经历了巨大的变化。以下从几个不同的角度来观察和总结人机交互技术发生的变化及发展趋势：

(1)就用户界面的具体形式而言，过去经历了批处理、联机终端(命令接口)、(文本)菜单等多通道——多媒体用户界面和虚拟现实系统。

(2)就用户界面中信息载体类型而言，经历了以文本为主的字符用户界面(CUI)、以二维图形为主的图形用户界面(GUI)和多媒体用户界面，计算机与用户之间的通信带宽不断提高。

(3)就计算机输出信息的形式而言，经历了以符号为主的字符命令语言、以视觉感知为主的图形用户界面、兼顾听觉感知的多媒体用户界面和综合运用多种感观(包括触觉等)的虚拟现实系统。在符号阶段，用户面对的只有单一文本符号，虽然离不开视觉的参与，但视觉信息是非本质的，本质的东西只有符号和概念。在视觉阶段，借助计算机图形学技术使人机交互能够大量利用颜色、形状等视觉信息，发挥人的形象感知和形象思维的潜能，提高了信息传递的效率。早期的计算机系统只有单调的峰鸣声，虽然多媒体技术将声频形式和视频形式同时带入人机交互，但仍缺少听觉交互手段，即人处于被动收听状态，声音缺少位置和方向的变化，交互输入方面仍沿用图形用户界面所采用的键盘和鼠标器等交互设备。当前，在人机交互中结合进视觉的、听觉的以及更多的通道是必然趋势，特别是将听觉通道作为补充的或替换的信息通道已显示出重要性和优越性［1］。

(4)就人机界面中的信息维度而言，经历了一维信息(主要指文本流，如早期电传式终端)、二维信息(主要是二维图形技术，利用了色彩、形状、纹理等维度信息)、三维信息(主要是三维图形技术，但显示技术仍利用二维平面为主)和多维信息(多通道的多维信息)空间。

不论从何种角度看，人机交互发展的趋势体现了对人的因素的不断重视，使人机交互更接近于自然的形式，使用户能利用日常的自然技能，不须经过特别的努力和学习，认知负荷降低，工作效率提高。这种“以人为中心”的思想特别是自80年代以来，在人机交互技术的研究中得到明显的体现。本文通过简要回顾和分析人机交互技术的变化过程，进而展望未来发展的趋势。

1　命令语言用户界面

真正意义上的人机交互开始于联机终端的出现，此时计算机用户与计算机之间可借助一种双方都能理解的语言进行交互式对话。根据语言的特点可分为：

a. 形式语言。这是一种人工语言，特点是简洁、严密、高效，如应用于数学、化学、音乐、舞蹈等各领域的特殊语言，计算机语言则不仅是操纵计算机的语言，而且是处理语言的语言；

b. 自然语言。特点是具有多义性、微妙、丰富；

c. 类自然语言。这是计算机语言的一种特例。

命令语言的典型形式是动词后面接一个名词宾语，即“动词+宾语”，二者都可带有限定词或量词。命令语言可以具有非常简单的形式，也可以有非常复杂的语法。

命令语言要求惊人的记忆和大量的训练，并且容易出错，使入门者望而生畏，但比较灵活和高效，适合于专业人员使用。

2　图形用户界面

图形用户界面(GUI-Graphics User Interface)是当前用户界面的主流，广泛应用于各档台式微机和图形工作站。比较成熟的商品化系统有Apple的Macintosh、IBM的PM(Presentation Manager)、Microsoft的Windows和运行于Unix环境的X-Window、OpenLook和OSF/Motif等。当前各类图形用户界面的共同特点是以窗口管理系统为核心，使用键盘和鼠标器作为输入设备。窗口管理系统除基于可重叠多窗口管理技术外，广泛采用的另一核心技术是事件驱动(Event-Driven)技术。图形用户界面和人机交互过程极大地依赖视觉和手动控制的参与，因此具有强烈的直接操作特点。

虽然菜单与图形用户界面并没有必然的联系，但图形用户界面中菜单的表现形式比字符用户界面更为丰富，在菜单项中可以显示不同的字体、图标甚至产生三维效果。菜单界面与命令语言界面相比，用户只需确认而不需回忆系统命令，从而大大降低记忆负荷。但菜单的缺点是灵活性和效率较差，可能不十分适合于专家用户。基于图形用户界面的优点是具有一定的文化和语言独立性，并可提高视觉目标搜索的效率。图形用户界面的主要缺点是需要占用较多的屏幕空间，并且难以表达和支持非空间性的抽象信息的交互。

3　直接操纵用户界面

直接操纵(Direct manipulation)用户界面是Shneiderman［2］首先提出的概念，直接操纵用户界面更多地借助物理的、空间的或形象的表示，而不是单纯的文字或数字的表示。前者已为心理学证明有利于“问题解决”和“学习”。视觉的、形象的(艺术的、右脑的、整体的、直觉的)用户界面对于逻辑的、直接性的、面向文本的、左脑的、强迫性的、推理的用户界面是一个挑战。直接操纵用户界面的操纵模式与命令界面相反，基于“宾语+动词”这样的结构，Windows 95设计者称之为“以文档为中心”［3］。用户最终关心的是他欲控制和操作的对象，他只关心任务语义，而不用过多为计算机语义和句法而分心。对于大量物理的、几何空间的以及形象的任务，直接操纵已表现出巨大的优越性，然而在抽象的、复杂的应用中，直接操纵用户界面可能会表现出其局限性。从用户界面设计者角度看：

a. 设计图形比较因难，需大量的测试和实验；

b. 复杂语义、抽象语义表示比较困难［7］；

c. 不容易使用户界面与应用程序分开独立设计。

总之，直接操纵用户界面不具备命令语言界面的某些优点。

4　多媒体用户界面

多媒体技术被认为是在智能用户界面和自然交互技术取得突破之前的一种过渡技术。在多媒体用户界面出现之前，用户界面已经经过了从文本向图形的过渡，此时用户界面中只有两种媒体：文本和图形(图像)，都是静态的媒体。多媒体技术引入了动画、音频、视频等动态媒体，特别是引入了音频媒体，从而大大丰富了计算机表现信息的形式，拓宽了计算机输出的带宽，提高了用户接受信息的效率。

多媒体信息在人机交互中的巨大潜力主要来自它能提高人对信息表现形式的选择和控制能力。同时也能提高信息表现形式与人的逻辑和创造能力的结合程度，在顺序、符号信息以及并行、联想信息方面扩展人的信息处理能力。多媒体信息比单一媒体信息对人具有更大的吸引力，它有利于人对信息的主动探索而不是被动接受。另一重要原因是多媒体所带来的信息冗余性，重复使用别的媒体或并行使用多种媒体可消除人机通信过程中多义性及噪声。

多媒体用户界面丰富了信息的表现形式，但基本上限于信息的存储和传输方面，并没有理解媒体信息的含义，这是其不足之处，从而也限制了它的应用场合。多媒体与人工智能技术结合起来而进行的媒体理解和推理的研究将改变这种现状。另一方面，多通道用户界面研究的兴起，将进一步提高计算机的信息识别、理解能力，提高人机交互的效率和用户友好性，将人机交互技术和用户界面设计引向更高境界。

5　多通道用户界面

多媒体用户界面大大丰富了计算机信息的表现形式，使用户可以交替或同时利用多个感觉通道。然而多媒体用户界面的人机交互形式仍迫使用户使用常规的输入设备(键盘，鼠标器和触摸屏)进行输入，即输入仍是单通道的，输入输出表现出极大的不平衡。

多媒体用户界面丰富了信息表现形式，发挥了用户感知信息的效率，拓宽了计算机到用户的通信带宽。而用户到计算机的通信带宽却仍停留在图形用户界面(WIMP/GUI)阶段的键盘和鼠标器，从而成为当今人机交互技术的瓶颈。80年代后期以来，多通道用户界面(Multimodal User Interface)成为人机交互技术研究的崭新领域，在国际上受到高度重视。多通道用户界面的研究正是为了消除当前WIMP/GUI、多媒体用户界面通信带宽不平衡的瓶颈，综合采用视线、语音、手势等新的交互通道、设备和交互技术，使用户利用多个通道以自然、并行、协作的方式进行人机对话，通过整合来自多个通道的精确的和不精确的输入来捕捉用户的交互意图，提高人机交互的自然性和高效性。国外研究(包括上述项目)涉及键盘、鼠标器之外的输入通道主要是语音和自然语言、手势、书写和眼动方面，并以具体系统研究为主。

多通道用户界面与多媒体用户界面一道共同提高人机交互的自然性和效率。多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图理解的问题，它所要达到的目标可归纳为如下方面：a. 交互自然性，使用户尽可能多地利用已有的日常技能与计算机交互，降低认识负荷；b. 交互高效性，使人机通讯信息交换吞吐量更大、形式更丰富，发挥人机彼此不同的认知潜力；c. 吸取已有人机交互技术的成果，与传统的用户界面特别是广泛流行的WIMP/GUI兼容，使老用户、专家用户的知识和技能得以利用，不被淘汰。

研究者心目中的多通道用户界面具有以下几个基本特点：

a. 使用多个感觉和效应通道。尽管感觉通道侧重于多媒体信息的接受，而效应通道侧重于交互过程中控制与信息的输入，但两者是密不可分、相互配合的；当仅使用一种通道(如语音)不能充分表达用户的意图时，需辅以其它通道(如手势指点)的信息；有时使用辅助通道以增强表达力。需要特别强调的是，交替而独立地使用不同的通道不是真正意义上的多通道技术，反之，必须允许充分地并行、协作的通道配合关系；

b. 三维的和直接操纵的。人类大多数活动领域具有三维和直接操纵特点(也许数学的和逻辑的活动例外)，人生活在三维空间，习惯于看、听和操纵三维的客观对象，并希望及时看到这种控制的结果。多通道人机交互的自然性反应了这种本质特点。

c. 允许非精确的交互。人类在日常生活中习惯于并大量使用非精确的信息交流，人类语言本身就具有高度模糊性。允许使用模糊的表达手段可以避免不必要的认识负荷，有利于提高交互活动的自然性和高效性；多通道人机交互技术主张以充分性代替精确性［4］。

d. 交互双向性。人的感觉和效应通道通常具有双向性的特点，如视觉可看可注视，手可控制、可触及等，多通道用户界面使用户避免生硬的、不自然的、频繁的、耗时的通道切换从而提高自然性和效率。例如视线跟踪系统可促成视觉交互双向性，听觉通道在利用三维听觉定位器(3D Auditory Localizer)实现交互双向性，这在单通道用户界面是难以想象的；

e. 交互的隐含性。有人认为，好的用户界面应当使用户把所有注意力均集中于完成任务而无需为界面分心，即好的用户界面对用户而言应当是不存在界面。追求交互自然性的多通道用户界面并不需要用户显式地说明每个交互成分，反之是在自然的交互过程中隐含地说明。例如，用户的视线自然地落在所感兴趣的对象之上；又如，用户的手自然地握住被操纵的目标。

6　虚拟现实技术

虚拟现实(Virtual Reality)又称虚拟环境(Virtual Environment)。虚拟现实系统向用户提供临境(immerse)和多感觉通道(multi-sensory)体验，它的三个重要特点，所谓的I3［5］，即临境感(Immersion)、交互性(Interaction)、构想性(Imagination)决定了它与以往人机交互技术的不同特点，反映了人机关系的演化过程：在传统的人机系统中，人是操作者，机器只是被动的反应；在一般的计算机系统中，人是用户，人与计算机之间以一种对话方式工作；在虚拟现实中，人是主动参与者，复杂系统中可能有许多参与者共同在以计算机网络系统为基础的虚拟环境中协同工作，虚拟现实系统的应用十分广泛，几乎可用于支持任何人类活动和任何应用领域。

作为一种新型人机交互形式，虚拟现实技术比以前任何人机交互形式都有希望彻底实现和谐的、“以人为中心”的人机界面。多通道和多媒体技术的许多应用成果可直接被应用于虚拟现实技术，而虚拟现实技术正是一种以集成为主的技术，其人机界面可以分解为多媒体多通道界面。从体质上说，多媒体用户界面技术侧重解决计算机信息表现及输出的自然性和多样性问题，而多通道技术侧重解决计算机信息输入及识别的自然性和多样性问题。另一方面，交互双向性特点同时存在于这两种人机交互技术中，例如三维虚拟声显示技术不仅作为静态的显示，而且其交互性可使用声响效果随用户头和身体的运动而改变［6］；又如视觉通道交互双向性表现在眼睛既用于接受视觉信息，又可通过注视而输入信息，形成所谓的视觉交互。

7　什么是理想人机交互技术

人机交互技术几十年来经历了几个不同的主要发展阶段和典型风格。当前，占统治地位的图形用户界面(WIMP/GUI)正遭受不断的批评，而新的交互技术尚不成熟和普及，于是人们更为热衷于争论未来的人机界面“可能是什么样子”而且莫衷一是。在此，我们也想加入这种讨论的行列，根据几年来研究工作的心得发表一些看法，谈谈什么是理想人机交互风格。我们的出发点处于人机工程学这个大背景，遵循人机工程学的基本观点，在“以人为中心”前提下强调人机配合。

让我们先考察在人机工程学出现之前人类如何对待工具。不管某个具体工具的设计者在某个具体时期如何理解人与工具的关系，就人类劳动(尤其是制造和使用工具)的历史长河而言，人类是在努力不懈地改造和驯服自然，而工具的制造和完善都是在服从这种目的的前提下进行的。就使用特定工具是否需要经过训练以及所需训练的程度如何，也是不一而论的。人的技能有简单与复杂之分，也许人人都能学会打字，但未必人人都能学会驾驶航天飞机。

较为合理的看法是“自然人机交互是利用人的日常技能进行的”，强调无需特别训练或不需要训练。但究竟什么是“日常技能”以及日常技能是否都是不经训练或稍作训练即可获得呢?语言(特别是书面语言)是必须经过训练的，音乐、绘画、生产工艺等莫不如此。我们认为，人从日常环境走向计算环境时原本具有的技能便是所谓的“日常技能”。可见这是一个相对的概念，其中并不细究是否需训练的问题。所以我们不能以是否需要训练来衡量人机交互技术的好坏。人机工程学并不否定训练，避免训练或减少训练是人们的愿望，但能否做到并不完全由人的主观意志决定，应根据人机交互任务的目的、特点、场合以及实现成本等因素来决定人机交流应达到的自然性程序。

也许对于早期的“纯粹”的计算机问题和为数极少的计算机专家而言，命令语言及程序语言界面是足够的。但是当计算机大量应用于CAD/CAM、字处理、MIS等非数值计算领域之后，需要进行大量几何的、空间的、非数值的、非符号的信息处理手段，此时形式语言界面的复杂性、抽象性，对记忆负荷要求等限制了计算机应用的深入和普及，随之直接操纵给用户界面技术应运而生并广受欢迎。我们相信，形式语言不会消失，当然也不能强迫所有用户都接受它。这正如数学语言并不会被其它形式的语言(如图形的、手势的)所取代，虽然心理学家尝试在数学教育中大量利用非数学手段；又如流行音乐与高雅音乐各分秋色，听众各有所好。目前，直接操纵界面不但没有彻底取代形式语言界面，而且其自身也表现出许多局限性。而基于语言的对话式交互方式又重新开始受到重视，只是对话语言不再限于单纯的形式语言，而是引入了自然语言或类自然语言对话，如所谓的第四代语言，甚至引入基于语音的人机对话。基于形式语言、自然语言或类自然语言的用户界面本质上都是命令驱动的，其基本模式与直接操作用户界面相反。这两种本质不同的人机交互模式在人类的日常活动中都存在其对应的形式，分别对应于语言的和非语言的交际活动，后者泛指形体语言，包括姿势，情态、触摸、近体、标志等。语言具有后天习得性，有口头语言和书面语言两种，书面语言需要正规和专门的教育和训练才能掌握。

我们认为，自然人机交互模式是以直接操纵为主的、与命令语言特别是自然语言共存的人机交互形式。理想的人机交互模式就是“用户自由”。

结论

人机交互和计算机用户界面刚刚走过基于字符方式的命令语言式界面，目前正处于图形用户界面时代。但是，计算机科学家并不满足于这种现状，他们正积极探索新型风格的人机交互技术。当前语音识别技术和计算机联机手写识别技术的商业成功让人们看到了自然人机交互的曙光。虚拟现实和多通道用户界面的迅速发展显示出未来人机交互技术的发展趋势是追求所谓“人机和谐”的多维信息空间［8］和“基于自然交互方式的”［9］的人机交互风格。

参考文献

W.W.Garve.Auditory Icons.Using Sound in computer Interface. Human-Computer Interface, 2,1986
B.Sheiderman. Direct manipulation. A Step Beyond Programming Languages. IEEE Computer, 16(8), 1983
A. King. Inside windows 95. Microsoft Press, 1995
A. G. Hauptmann & P.McAvinney. Gestures with Speech for Graphic Manipulation. International Journal of Man-Machine Studies, 18(2),1993
G. Burdea & P.Coiffet. Virtual Reality Technology.John Wiley and Sons, Inc. New York, 1994
G. Grinstein, et al. EXVIS: An Exploratory Visualization Environment Graphics Interface.' 89 London, 1989
方志刚，马卫娟.支持复杂语义实现的直接操纵用户界面模型.计算机研究与发展，1997.5
汪成为.灵境技术与人机和谐仿真环境.计算机研究与发展，1997.1
王坚，董士海，戴国忠.基于自然交互风格的多通道用户界面模型.计算机学报，1996. 19(增)