我们用什么来衡量设计

2009-08-10 作者：Jakob Nielsen 翻译：JJYY 来源：far2go.cn

1：感性vs理性

在这里，我们不讨论纯粹的艺术，而是产品的设计。作为一个设计师，我们用什么样的标尺去衡量设计的好坏优劣？

最初，我们完全凭个人的感觉去判定，通过自己的经验，喜好去感受和描绘作品。

人们常觉得设计蒙着一层神秘面纱，是设计师的天赋和艺术素养的体现。这时的衡量标尺十分模糊和苍白，通过感性去批驳感性，往往结果变成“我觉得整体要更嘈杂一点”，“我觉得颜色更鲜艳点好”，“能不能字体更精美华丽点，更有冲击力些”……你可以不赞同一种风格，但你无法驳倒他，衡量的过程是痛苦的。

慢慢，我们学会关注自己的用户，开始试着站在他们的角度看待问题。

“我们的用户是中年为主，可能不能接受这种夸张的风格” ，
“用户在这个地方会觉得困惑呢，看研究中他们似乎很难理解”……
通过用户测试和研究，去发现问题，去了解用户怎么思考，我们开始变得理性，用严谨的思维去审查设计，衡量设计的标尺开始形成。但，个别用户的看法和观察很难说具有绝对代表性，有时这个标尺并不是那么有力。（一位曾在Apple的前辈举过一个例子，观察最初十几个用户发现了一件事，但接下来的50个完全是另外一回事）

于是，我们开始使用数字——强有力的标尺。

既然个别用户不能代表一切，就用高度统计的数字来说话。要不要阴影？做一个有阴影一个无阴影的，然后做5%的实验。最后发现，有阴影的traffic比无阴影的要低1%，那就不要阴影了。菜单背景是要蓝色还是白色？经过1个月的统计发现蓝色背景用户点击要高5.47%，那我们就要蓝色吧。我们变得更加理性和严谨，设计似乎只是一些排列组合，最终结果都可以变成数字输出，进行清晰的比较。数字是绝对是强大的，但也会有它的缺陷。过度沉浸于数字而缺乏更高层的次洞察力，将很可能把你带入歧途。

100%的感性vs 100%的理性，无论站在哪个极端都是错误的。一个伟大产品的设计不是随心所挥欲的风格挥洒，也不是排列组合的数字分析。在针对用户的基础分析研究之上，了解用户所面临的问题和挑战，需要设计师用自己的经验和专业素养去迸发和形成方案，然后经过定性、定量等多种方法和标尺去不断提炼、改进设计。

接下来介绍典型方法（衡量标准）的优劣，同事Fuxin博士推荐的文章：把A/B测试摆放在正确的位置上。以及：定量研究的风险。

2：把A/B测试摆在正确的位置上

以关键商业指标来衡量设计改变所带来的冲击是有价值的，但同时也常创造了对短期改进的关注。这些短期性视线常常忽略了仅仅只能通过定性分析才能发现的重要事件。

在A/B测试中，你发布两个不同的设计版本然后看哪一个的表现更好。这个方法是有历史的，它是直邮中的一个经典方法：公司分别送出不同的邮寄（广告等）信息给不同受众。A/B测试也在Web中变得十分流行，因为在网络上很你能容易展示不同的页面版本给不同的访问者。

有时A、B版本是直接相互竞争的设计，各自面向一半的用户去展示。而有时候，A是当前的设计，作为控制版本供绝大部分用户所见。在这情况下，B更多是偏向于一些大胆的设计或实验版本，在证明自己真正有效前仅会向小部分用户展现。

最后，在更多重变量测试中，你会同时改变多个设计元素，但要点和A/B测试是相似的。为了简单化，我用“A/B”来代表所有使用真实流量去衡量二选一设计的测试研究，忽略了其中被测试的变量数目。

优势

和其他方法相比，A/B测试有4个巨大优势：

1. 它衡量了你的用户在现实世界环境下的真实行为。你可以十分有信心的断定如果版本B比版本A卖出了更多的东西，那么版本B应该要在未来展示给所有用户。

2. 通过高度统计的数据，它可以衡量非常细微的性能差异，因为你可以分别记录两个设计的详细流量情况。例如“侧边栏告诉你怎样去衡量1%的差异”

3. 有时会同时存在相互冲突的指导方针或可用性研究发现，A/B测试可以解决这种交易取舍问题，去判定哪个因素在当前环境下携带了更多的比重。
例：一个电子商务网站在显著位置要求用户输入折扣券，用户测试反映没有折扣券的用户会抱怨，因为他们不想比另一些用户花更多的钱。另一方面，折扣券是一个十分好的市场营销工具，用户测试表明如果没有方便输入折扣券的地方的话，持有折扣券的用户会明显不满。
这个电子商务网站用A/B测试来观察两个不同的设计（提供和不提供折扣券输入框），在主要购买和结算流程中，不提供折扣券的情况下总体销售量要高出20%-50%。这样的话，主要指导原则就是避免提供一个显著的折扣券位置。当然你的网站存在着各种例外，也许折扣券带来的好处要大于它的伤害。通过A/B测试你可以十分容易发现这些。

4. 它十分便宜：当你做出两个供挑选的设计后（或一个改进版本同当前版本的比较），你只需简单把它们全都丢到服务器上，然后搞一点软件设置让他们随机分别展示给一定份额的用户看。

局限

既然有这么明显的好处，为什么我们不把A/B测试套用到所有项目中去？因为事物常常是双刃剑，有时不利面会大于有利面。

首先，A/B测试只适用于那些有着一个清晰、且各方面都很重要的目标的项目。或者说，一个简单的关键指标（KPI）。另外，这个目标要能够被电脑通过简单的统计用户行为来衡量。在这里举一些例子如：

电子商务网站的销量
一份电子新闻邮件的用户订阅数
用户开设的在线银行账户数目
用户下载了一份白皮书，要求一个销售人员和他联系，或其他非常明显的进入销售流程的行为。

非常不幸的是，很少见到这类指标是网站的唯一目标。是的，对于电子商务网站来说，销售总量可能是最为重要的，但不能说一个单一的用户行为代表了网站的所有。用户填写一个表单并接触销售人员是好事，但让用户离开时对你的产品感觉良好、并把你列为在今后购买流程中值得信赖的公司同样重要。特别是对于 B2B网站，如果你唯一的判定标准是哪个设计会产生更多的白皮书下载量，你就在冒险渐渐破坏你的生意。

对于许多网站而言，终极的目标不是通过服务器上的用户的行为去衡量。例如提升品牌价值、支持公司的公共关系这些目标是不能通过用户点击某个特殊按钮来衡量的。你在线公关信息宣传报道的覆盖额也许可以被某些服务很衡量，但它不会告诉你一位记者在采访你的大老板前来网站访问过。

类似的，你可以很容易统计有多少用户注册了你的新闻邮件，但除非你去观察订阅用户的阅读行为，否则你不可能知道他们是怎样阅读你新闻邮件内容的。

第二个A/B测试的缺陷是它只能使用完全实施好了的设计。

在一个设计已经制作完成并运行的时候去测试是便宜的，但我们都知道要把一个设计制作成可运行的版本需要花费漫长的时间，在你可以在线发布展示给最终用户前，有着大量的Debug和测试。A/B测试只适用于甄别少数个别设计间的优劣。

与之相对的，纸上原型让我们可以在一天之内尝试许多不同的点子，当然原型测试只能给你定性的数据，但是它们能够帮助里快速抛弃明显糟糕的点子，然后集中精力在那些好点子上。许多经验告诉我们优秀的用户界面设计往往是通过多次设计迭代提炼中得到，如果每一次迭代太慢或需要太多资源，你会因为缺乏提炼去得到完善的设计。

一个可行的折中方案是用纸上原型去开发呈现你的点子，当有了很棒的设计后，你可以用A/B测试作为最后的舞台来看看它是不是真的比目前的设计更好。但A/B测试不应该在用户界面设计项目中作为首要的驱动。

着眼于短期

A/B测试的驱使力量是测试结果中被衡量的数字，一般这都是当下用户的行为，例如购买某样东西。理论上来说这些数字标尺可以用来衡量长期结果，例如五年期间的客户总价值。但在实际中，这种长期数据的跟踪很少发生，没有人会有耐心等五年来决定究竟采用A还是B。

基于当前（短期）数据上所作出的决定，有可能会把你引向歧途。一个常见的例子：你应该在首页或产品页上增加促销信息吗？除非你推荐给用户和他们需求相关的商品，否则每一个增加的促销都是信息噪音，在降低网站的可用性。

当我指出促销的这个可用性问题时，我常常收到具有代表性的争论“促销创造了更多目标商品的销量”。当然，任何时候你把一个东西摆在显著位置上，它会卖得更多。问题是这种做法是不是在其他地方损害了你的网站。

有时候A/B测试可以在这点上帮助你，如果你检查整体的销量而不是特定促销的商品。在另一些时候，如果负面影响不是立即发生的话，A/B测试会失败。打比方，浏览一个混乱拥挤的网站让人不快，尽管在当前促进了用户的购买，但长期有可能降低用户的忠诚度，他们在未来就不太可能回来。就产生了一种效应：用户慢慢被其他更好的网站所吸引和抽取过去。（这也是为什么当初许多嘈杂拥挤的搜索引擎在4年间败给了Google）

缺乏行为洞察力

A/B测试最大的问题是你不知道为什么你会得到这个结果。你没有观察用户或者倾听他们的想法，你只知道：根据统计来看，在两个设计中，A比B有更多的人执行一个特定的操作。当然，这可以支持我们去发布版本A，但是这不会对你在其他设计中做决定和向前有任何帮助。

喏，比如你测试了两种尺寸的购买按钮然后发现大按钮比小按钮产生了多1%的购买量，那，这是不是表示你换个更大号的按钮会卖的更多呢？或者，一个中号的按钮可以产生多2%的购买？天知道。为了找出答案，你别无选择，只能再去尝试一系列的按钮。

当然你也不知道或许其他改变可能带来更大的好处，例如改变按钮的颜色或者按钮上的文字，或改变按钮在页面上的位置，按钮文字大小会比改变按钮本身尺寸更有效，更能带来积极的结果。基本上，对于按钮B不好的原因你P都不知道，留给你的就只有猜测，去琢磨是不是有其他的东西也会有帮助。在每一个猜测后面，你都要发布更多测试然后等着得到更多的统计数据去接受或者丢弃这个猜测。

最最糟糕的是，A/B测试只能够提供你所测试的元素的数据，他不是一个开放的方法（比如User Testing）, 用户常常在你意想不到的地方被阻碍和困惑。这非常常见，例如寻找和信赖相关的问题，在这里用户根本就不想和你做生意，因为你网站在渐渐蛀空你的信誉。

像类似信赖度和残缺的产品信息这种大问题往往有着100%或更大的效果，意思是如果识别和修复这类问题，你的销量可能会翻倍。如果你花费所有的时间在寻找1-2%的改进上，思考一下你可以很容易通过定性研究洞察用户的需求、渴望和害怕来获得100%的改进。

方法组合

A/B测试存在的问题比带来的好处更多。你不应该把它作为改进你网站转换率时所采用的首选方法，而且永远不要把它作为项目中使用的唯一方法。定性的观察用户行为更为迅速，更能产生深远的洞察。同时，定性分析存在的错误和陷阱比定量分析要少。

A/B测试的确有着他的优势，是定性研究的强大补充。当公司的可用性需求增长到一个层次后你会常常指导进行许多不同形式的用户研究，A/B测试一定在工具箱里有着他的位置。

3：定量研究的风险

来自Jakob Nielsen的文章，十分深入的指出了定量研究中存在的各种风险。由于十分专业而且有点长，我把文章的精华在下面摘要出来，大家可以快速阅读，了解便可。如果有兴趣则可继续阅读后面的全文。

用户研究有两种类型：定量研究（注重统计分析）和定性研究（注重了解和洞察力）。

定量研究有着自己的优势，但定性研究能以最少的金钱交付最好的结果。统计分析常常会出错、存在偏见或过度狭隘。数字崇拜者常因专注于统计分析而把可用性研究引入歧途。强调洞察力和定性分析更为重要。

定量研究主要的好处十分明显：它把复杂的情况变成一个单一的便于理解和讨论的数字。如这个例子：在使用网站时，残疾用户比普通用户要困难206%，成年人用户比主流用户要困难122%

在接下来列举的这方面，定量研究存在着与生俱来的风险：

1. 随机结果

研究人员常用统计分析来决定哪些数字“具有统计显著性”。根据惯例，小于5%的界限常被认为更可能是随机结果，但这也暗示着如果研究者完全依赖定量分析的话，1/20的“显著结果”也许只是随机的现象。同样，也有可能存在真正有价值的事实被忽略的现象（也许因为样本容量或实验原因而没有表现出统计显著性）。

2. 魔术般变出许多相互关联来

记住：1/20的分析是“显著重要的”，即便根本就没有真正有价值的现象，所以只要测量了足够多的变量，你不可避免会发现其中一些看起来是相互关联的。例如测量7个标尺的研究会在变量之间产生21种可能的联系。因而根据平均值，这里面有1个关联会被统计认为“显著重要”，即便这里面根本就没有真正的联系。

3. 忽略了协变因素

即便一个关联看起来表现出真正重要的现象时，也有可能产生误导——如果真正的关联是并不是在你当前测量的两个变量之中，而是和第三个变量有关。如这个存在误导的例子：研究显示智力随着出生的顺序而递减（换句话就是第二胎孩子比第一胎要笨，第三胎比第二胎笨。。。）

另一个例子如更长的链接文字和用户的访问成功有积极正面的联系，但在这个表象之下隐含的关联是：粗心的设计师往往简单用”更多“、”请点击“ 等文字，而没有去思考用户是不是能够理解。资深设计师可能会使用更容易理解和自然的链接文字，即便可能会长一些。

4. 过于简单的分析

为了获得好的统计结果，研究人员必须严密控制实验的条件。如使用简化的页面和内容去代替真实的、拥有复杂情境的网站。狭隘的研究常忽略掉考虑宏观整体的可用性，这些条件的严密控制可能会使得结果不足以推广到现实世界中的问题。如这个例子：可以非常容易搞一个研究来说明面包屑设计是无用的。

5. 扭曲了的测量尺度

通过在错误的时间帮助用户，或者使用错误的任务，我们可以很容易误导一个可用性研究。实际上只要有针对性的设计实验，我们可以证明任何我们想要的结果。

我插一句：常常在项目中，研究中，甚至生活中，我们会去证明自己想要证明的，发现自己想要发现的，看到自己希望看到的。这是无数错误的开始）

此外还有很多引起扭曲的因素如新奇效果。

6. 出版偏见

编辑总是遵循“人咬狗”的原则去突出新的、有趣的故事，不论科学期刊还是流行杂志都一样。这可能造成十分新奇、与众不同的研究结果得以曝光，即便它存在着严重偏见或者不实。例如网站响应时间是否重要的故事。

总结

从上我们可以看到定量研究有着与生俱来的风险，如果你在没有洞察力的前提下去依赖数字，你将被绊倒在数字所引导的错误道路上。相比起来，定性研究会更加稳固，也不太会因为一些方法上的弱点缺陷而完全失败，即使研究不见得在每个细节都完美，你仍然可以通过定性分析去了解用户和观察他们的行为来获得许多好结果。

专家会比初学者能从定性研究中获得更多更好的结果。但在定量研究中，只有最好的专家才能得到有效的结果，并且只有当他们十分小心的时候。

如果你感兴趣，可以接下去看全文。

全文 -----------------------------------

统计分析常常会出错、存在偏见或过于狭隘。数字崇拜者常因专注于统计分析而把可用性研究引入歧途。强调洞察力和定性研究更为重要。

用户研究有两种类型：定量研究（统计学）和定性研究（洞察力）。定量研究有着奇特有趣的优势，但定性研究能以最少的金钱交付最好的结果。并且定量研究常常太过狭隘并会产生误导。

定量研究的主要好处十分明显：把复杂的情况变成单一、便于理解和讨论的数字。我自己有所体会，例如在对人们使用网站的报告中：残疾用户比普通用户要困难206%，成年人用户比主流用户要困难122%。

当然，上面的数字结果忽略了需要厚厚一叠纸来解释的细节：为什么对于这些人群来说网站难于使用？我们应该要怎么做？

在上面的例子中，数字的确告诉了我们一些事情：

它告诉我们相比成年人用户，残疾用户所处的情况要糟糕得多。知道这个数值能帮助公司更好决定如何分配宝贵的资源。

它还告诉我们这不是一个小问题。如果一部分用户使用网站只比其他人难了5%，绝大部分人会说“无所谓，就这样吧”，但206%对我们许多人来说难以接受。

数字也可以帮助比较不同设计的优劣和进行长期跟踪。如果十年后，成年人使用网站的难度只比年轻用户高50%，那就可以说我们取得了实质改进。

提防数字崇拜

当阅读其他人的研究报告时，我常发现他们的定性研究结果要比定量研究结果更为可靠和有价值。认为统计研究比基于洞察力的观察研究更有价值是一个危险的倾向。实际上，绝大多数统计研究比定性研究的可靠性更低。设计研究和医学不一样，在传统学科中最为接近它的是人种学。

UI和可用性是与情境高度相关的，它的有效性依赖于对人类行为的深刻了解。典型的情况是设计师需要对设计指导规范（Design Guidelines）进行组合和取舍，这就要求去了解这些设计准则后的基本原则及原理。针对一个特定功能的事件常常和实际设计毫不相关。

迷恋数字、抛弃定性的洞察会把可用性研究引入歧途。在接下来列举的这方面，定量研究存在着与生俱来的风险：

风险1：随机结果

研究人员常常用统计分析来决定哪些数字结果具有“统计显著性”。根据惯例，小于5%的界限常被认为更可能是随机结果而不是具有重要意义的发现。

听起来十分合理，但这也暗示着如果研究者完全依赖定量分析的话，1/20的“显著结果”也许只是随机现象。

幸运的是，许多优秀的研究员——特别是那些在用户界面（UI）领域的，并不单纯使用定量研究。他们发布的报告在简单统计数字之上常有着更高的洞察力。

还有一个反面例子：有时因为研究实验的设计原因，一个真正有价值的发现在统计上却并不引人注目。也许是没有包含足够的参与者从而观测到真正重要、但是稀有的发现。仅仅因为没有出现在定量研究结果中而把相关因素给剔除，可能是错误的。

2000年大选时在弗洛里达州的“蝴蝶投票”是一个很好的例子：一个基于100选民的研究可能没包含拥有统计显著性的人数，去发现这么一个情况：那些打算投戈尔的票的人却投给了Patrick Buchanan。小于1%的投票者会犯出现这种情况。一个定性的研究可能会揭示投票者的一些行为如“好吧，我想投票给戈尔……等等，看起来 Buchanan更加靠谱，我还是不投给戈尔了”。犹豫不决和差不多抉择是观测研究者的宝藏，但是把它们翻译为设计建议需要定性分析去观察并组合可用性原则。

风险2：魔术般变出许多相互关联来

如果测量了足够多的变量，你不可避免会发现其中一些看起来是相互关联的。用软件统计所有测试然后一定会有几个具有“统计显著性”的关联蹦出来（记住：1/20的分析是“显著的”，即便根本就没有真正有价值的现象）

测量7个标尺的研究会在变量之间产生21种可能的联系。因而根据平均值，这里面有1个关联会被统计认为“显著重要”，即便这里面根本就没有真正的联系。

在我2004年的一个网页可用性项目中，我们从53个不同方面收集用户行为的衡量标尺，因而有1,378种可能的关联可以让我丢到漏斗中去。即便在研究中我什么都没有发现，还是有69个关联会表现出“统计显著性”。

很明显我不会弯下腰去专注于捕捉相互关联，我只会报告有合理假设的、基于有真正潜在价值的统计数据。（实际上，统计研究程序假设研究员是拥有一个假设为前提的。如果你只是为了捕捉“统计上的显著重要”，你就是在滥用软件）

风险3：忽略了协变因素

即便一个关联看起来表现出真正重要的现象时，也有可能产生误导——如果真正的关联是并不是在你当前测量的两个变量之中，而是和第三个变量有关。

例如研究显示智力随着出生的顺序而递减。换句话说第一胎的孩子会比第二胎的孩子拥有更高的平均智商，以此类推，第三胎、第四胎孩子的智商会更低。这个研究看起来非常明显的警告父母：“不要生太多的孩子，否则他们会变得越来越蠢”。

其实根本不是这样。

在这个例子中有着隐藏的第三个隐藏变量：聪明的父母往往更倾向于拥有更少的孩子。当你想要衡量第一胎孩子平均智商低的时候，你针对所有的父母进行采样，却不关注他们拥有孩子的数量。但是当你衡量平均值的时候，很明显你只对那些拥有五个或更多孩子的父母进行采样。这样会造成低智商的后生孩子比重更高。当衡量随机取样的孩子智商的时候，你忽略了他们的父母——这个真正起影响的因素。

（2007年的补充：最新研究揭示家庭大小和父母的经济教育因素对首胎智商的影响是非常小的，但是要点仍然是你需要去更正这些协变量，当你做了这点的时候，智商的差异会比那些你可能会相信的偏差平均值要小很多。）

拿网页上的例子来说，你也许会观察到更长的链接文字会和用户的成功访问有正面相关性，这并不意味着你就应该去写更长的链接。在这里网页设计师是隐藏的协变式：粗心的设计师会倾向使用“更多”、“点击这里”之类的短链接文字，或自己创造的词语。相反注重可用性的设计师会试着把选项解释为用户容易理解的语言，去强调文字和内容丰富的设计元素，而不是用一些幻想的元素如“微笑的女人”。

风险4：过度简化的分析

为了获得好的统计结果，你必须严密控制实验的条件——严密到结果不足以推广和解决现实世界中的问题。

这是大学研究中的一个普遍问题，他们测试的目标常常是倾向于大学生而不是主流用户。同时许多学生并不是使用真正的网站进行测试（真正的网站常有着复杂多样的情景和上下文联系），他们往往用数张简化了的、只有简单内容的设计进行测试。

举个例子，可以非常容易搞一个研究来说明面包屑设计是无用的：给用户一个清晰的任务，要他们沿着一条直线到达目的地然后停在那里，这些用户会毫无疑问的忽略所有的面包屑线索。实际上呢？面包屑在许多网站设计中都被推荐使用，不仅仅因为它十分轻量化，它更重要的意义在于对那些通过搜索引擎或者导向link直接进入到网站深处的用户十分有帮助，而不是从头一步步走进来的用户。

狭隘的研究常忽略掉考虑宏观整体的可用性，例如重新访问行为、搜索引擎友好性、多用户决策等。类似这些的因素对设计的成功至关重要，如B2B或企业软件的设计。

风险5：扭曲了的测量尺度

通过在错误的时间帮助用户，或者使用错误的任务，我们可以很容易误导一个可用性研究。实际上只要有针对性的设计实验，我们可以证明任何我们想要的结果。这正是那些旨在表明一个厂家产品比竞争对手产品更好的赞助研究背后的原理。

即使实验者不欺诈，人们也很容易因为实验方法的弱点而受欺骗，如引导用户去注意屏幕上的特定细节。非常重要的事实是：你应该去询问一些设计元素，而不是引发用户的注意，从而改变他们的行为。

一项在线广告研究试图避免这种错误，不过却弄出了另一个错误来代替：这个实验没有公开要求用户对广告发表评论，他们要求用户评价一批页面的整体设计。实验后，研究者开始衡量用户对不同品牌的认知度，结果在页面上有banner的公司得到的更高的分数。

这个研究能够证明banner广告对品牌是有利的吗？即便它没有任何证据表明可以推动销售？不能。记住用户被要求直接对页面设计进行评价，这个动机使用户比平时更加仔细的去观察页面，特别当人们去评价设计的时候，他们会仔细检查页面上所有独立的设计元素，包括广告。

许多网页广告研究都具有误导性，因为大多数研究都来自广告代理机构。最常见的扭曲是新奇效果：每当介绍新广告格式时，它总伴随一项研究显示新类型的广告创造了更多用户点击。当然，因为新玩意总会获得一个临时优势：引起用户的注意可能只是因为它的新用户还没有培养起忽略它的习惯。这项研究在他完成的那个时段来说可能是正确的，但它不会揭示任何长期优势——当新奇的影响消退后。

风险6：出版偏见

编辑总是遵循“人咬狗”的原则去突出新的、有趣的故事，不论科学期刊还是流行杂志都一样。虽然可以理解，但这可能造成带有严重倾向的新奇、不同的研究结果得以曝光。

可用性是一个非常稳定的领域。年复一年，用户的行为几乎是相似的出现。在过去的许多研究中，我一直能发现很多相似结果。不论过去还是现在，发表一篇伪造或偏见的结果会得到更大的关注。

想想关于网页下载时间的问题。所有人都知道更快更好。自1968年以来相应时间的重要性就被写入交互设计理论中，从1995年到现在无数的网页研究都证实了这一点的重要性。电子商务网站的响应时间越快，卖的就越多。你服务器慢的那一天，你就在失去流量。（这最近在我身上发生过：1月14日， Tog被 slashdotted，因为我们共用一个服务器，和平时相比我的网站失去了10 ％的浏览量）（JJYY 注：slashdot.org是非常著名的科技新闻网站，常常会发生一些小网站因为被slashdot收录后流量剧增，而变成龟速甚至导致临时关闭，作者在这里把slashdot用做了动词）

如果20人研究下载时间，19个会认为更快更好。但是，每1/20的统计会给出错误结果，然后这一个研究可能会被广泛的讨论，仅仅因为它很新奇。其他 19个正确的研究反而可能不会引起注意。

对奇异结论的判断

奇异的结果有时有着似乎令人信服的数字支持。您可以使用的我在这里已经提出来的问题作为理智检查：这个研究是不是创造出了一些不存在的相互联系？它是不是有着偏见或者过于狭隘？它仅仅是因为与众不同而被强调吗？还是仅仅是个侥幸？

通常你会发现偏差的结果应该被忽略。人类行为的广义概念在交互式系统中应该是稳定的且容易被理解的。

例外通常正如其名：它仅仅是一个例外。当然，有时一个奇异的发现具有革命性，而不是虚幻。这极其罕见，但它确实发生过。关键在于发现是否会被重复，以及当知道在哪里可以发现的时候其他人是不是也能观察到。

一个例子，1989年我发表了一篇论文，折扣可用性工程，指出小型、快速的用户研究均优于大型研究，并测试约5个用户就足够的。这在当时是和主流思想（大预算测试）对着干的。在我发布后的15年间，其他一些研究人员也得出了类似的结论，为此我们制定了一个数学模型来证实这个基于我经验观察的理论。如今，几乎所有做用户测试的人都知道只需要做5个用户他们就可以得到绝大部分的东西。

另一个例子，有四个不同的研究都支持我的结论“ PDF文件对于在线信息访问是糟糕的”。在最新的研究中我们也发现同样的问题，这个结论被封存了数年。我当时非常犹豫要不要站出来反对在线PDF格式，因为它在其他情况下非常有用（最显著的如下载文件去印刷，这是它设计的目的）。随着越来越多的证据不断浮出来，最终一切变清晰了，结果就是在线PDF格式和用来印刷的PDF格式是非常不同的。

您可能会反驳其中某一项研究，但是4、5个研究建立了一个趋势，这大大增加了该项发现作为一个稀有事件的可信度。

总结

以上列出了许多定量研究可能会带来误导的理由，它也针对于糟糕的研究。做一个好的定量研究、通过测量获得有价值的洞察是可能的，但这样做会比较困难和昂贵。

定量研究必须在每一个细节和被检测的数字上做得非常正确，有太多的陷阱可能让你陷入进去。

如果你在没有洞察力的前提下去依赖数字，事情出错时你将没有任何备选方案。你将被绊倒在数字所引导的错误道路上。

定性研究会更加稳固，也不太会因为一些方法上的弱点缺陷而完全失败，即使您的研究不见得在每个细节都是完美的，您仍然可以通过定性分析去了解用户和观察他们的行为来获得许多好结果。

当然专家会比初学者能从定性研究中获得更好的效果。但在定量研究中，只有最好的专家才能得到有效的结果，并且只有当他们十分小心的时候。

| 联系我们 | 招聘信息 | 火龙果软件 |

火龙果软件/UML软件工程组织致力于提高您的软件工程实践能力，我们不断地吸取业界的宝贵经验，向您提供经过数百家企业验证的有效的工程技术实践经验，同时关注最新的理论进展，帮助您“领跑您所在行业的软件世界”。