数据使用要领清单：避开陷阱，完善处理流程-数据库-火龙果软件工程

数据使用要领清单：避开陷阱，完善处理流程

来源：全球深度报道网发布于 2016-4-28

次浏览

数据是科学，也是艺术。数据使用合适与否，对于建立新闻调查逻辑、推导结论、传达准确可感的内容十分重要，也直接影响受众的观感和认知。深度君选取资深记者和专家的新闻数据经验，告诉你可视化地图、数据新闻、普通新闻以及完整流程中里存在的数据陷阱、怎么选用数据才能又保险又合适。

图1 程序优化前的缓存对比

1、可视化地图：完善样本和逻辑，增强说服力

早恋虽美好却易逝——果真如此吗？社交网站Facebook的数据科学小组分析了本网用户信息，想知道学校对择偶的影响。他们的作品“From Classmates to Soulmates”得出结论：已婚人群中，有15%是和中学校友结为伴侣；而已婚的大学毕业生中，约28%是和大学校友喜结连理。

图2 程序优化后的缓存对比

上图是与中学校友结婚的比率，红点表示高比率，蓝点则相反。城市地区往往蓝点较多，乡村等偏僻地区则红点较多。

这个数据分析看似简单，却有许多问题：如果两人虽是校友，却并非在学校遇到，便不能证明是学校牵线搭桥；如果两人不仅上同一个中学，也上了同一个大学，哪一段相处促成了恋爱，也无法统计。另外，如何选择样本、避免系统误差，也是个问题。

针对以上问题，Facebook的分析员采取了如下预设条件：

1）如果两人上同一所学校的时间差在4年以内，就算作学校促成了这段姻缘；学校的“做媒成功率”是s/n，s是Facebook上某校毕业生与其配偶同校的人数，n是该校已婚毕业生的配偶也提供了学校信息的人数；

2）如果两人同上过不止一所学校，只计算最早同校的那一所；

3）只计算年龄在24岁以上、已婚并提供完整信息的用户数据；

4）只选择（在Facebook上登记的）有1000个以上已婚校友的学校；

5）女性用户和男性用户数据分开统计，因此两边数据是不对等的，分析时也分开观察。

数据分析的量度也很重要。Facebook分析员选择了如下三个因素作为变量，探究学校的“做媒成功率”与这些因素的关系：

1）学校大小；

2）学校的宗教倾向：以－1代表完全非宗教，1代表完全宗教化；

3）学校的政治倾向：以－2代表非常自由，2代表非常保守。

在这些前提下，一些有趣的发现包括：

1） “做媒成功率”较高的学校大部分是宗教化的学校；

2）女性嫁给同校男生比率最高的学校是印第安纳州的罗斯-豪曼理工学院（Rose-Hulman Institute of Technology），比例达70.4%；

3）男性娶同校女生比率最高的学校是爱荷华州的一所高中，虔诚浸会圣经学院和神学院（Faith Baptist Bible College and Theological Seminary），比例达66.8%；

4）男生比例高的学校，“做媒成功率”高；女生比例高的学校则相反。

这个案例中，数据不是通过针对性问卷获取，因此总有不足。Facebook调查小组也列举出一些缺陷，比如无法确定两人是在学校里才开始恋爱（也可能是之前或之后），所以上述统计是十分初步的；又比如两人虽然上同一个学校，却以不同拼写标示学校名称，统计中就会显示学校不吻合，有漏记风险；再者，数据只包括在Facebook上登记了完整信息的已婚用户，本身就是一个有缺漏的样本。

上图是每个大学的情况，圆圈代表大学，红色表示同校结婚者比例高，蓝色表示比例低；细线则连接了有较高比率“婚姻关系”的两个大学。（顺便推荐一个免费开源软件Gephi，这幅图就是用它制作的。）

2、数据新闻：四大避错要招

人们通常觉得数据新闻从本质上就比其它类型的报道更客观。数字不会说谎，对吧？

错了。

和数据打交道时，有太多办法可以欺骗受众，甚至误导自己，这些错误甚至可能是无心之失。过去一年研究数据新闻的第一手经验让我发现，要犯一些最终导致结论完全歪曲的错误实在是太容易了。以下便是数据新闻四大避错要招：

①上下文比例系数不能缺

没有语境的数字是没有意义的。缺乏背景信息的问题在有关财政支出的新闻中尤其明显，其它类型的报道中这种错误也经常蹦出来。

举个例子：

“纳税人花费十亿美元为非法移民儿童买单”、“福利津贴花掉64亿英镑”——这些天文数字组成的标题听上去让人愤慨不已。但事实是，公共支出数据常常都是天文数字，把数据放到上下文里看，分解到每个人头上，你会发现这些数字可能是完全合理的。

这个故事告诉我们，比例系数通常比绝对数值更有内涵。但比例系数也并不总是最正确的呈现方式。从你的数据出发，想想有什么办法能够最忠实的呈现它。

卫报(The Guardian)数据新闻记者James Ball建议所有数据新闻记者汇总一些基本的数字，既避免犯初级错误，也更容易一眼看出数据和结论是否合理。比如全国处于工作年龄段的人有多少、平均工资、就业率等。这不失为一种办法。

②相关性和因果关系要分开

只要你懂哪怕一点点统计学，你应该知道，相关性和因果关系是两个截然不同的东西。

然而，这一点却总是被新闻编辑室的人忽略。不要仅仅因为刚好有两个变量呈现相关性，就以为你有了条独家新闻。这种相关性完全有可能是其它一些潜在变量引起的，又或者，纯属巧合。

比如下图：

IE浏览器的市场份额 VS 美国谋杀率数据（图片来自Gizmodo）

这张图中IE浏览器的市场份额与美国谋杀率的关系是一个绝佳例子－它们俩的超高相关性是不是看上去容易让人迷惑？想了解更多具有欺骗性的相关性，可以上这个名叫“伪相关”(Spurious Correlations)的网站看看。

③用最合适的方式呈现数据可视化

这个问题值得专门写一篇文章，甚至好几篇文章，不过这里我只能点到为止。

好不容易，你做完了数据分析，挖出了一条大新闻，但一个差劲的视觉化呈现就能让你前功尽弃。糟糕的可视化可能会让读者产生疑问，甚至可能误导他们。比如，请不要这样......

不要用线形图表 (line chart) 表现离散数据，更不要去尝试那些看上去炫酷的3D饼状图，有可能你还在参与那场关于到底能否截短Y轴的永恒辩论。

数据可视化是艺术，更是科学。这里有一些好的指导书和网站，教你如何避免这些可视化中的潜在陷阱：

The Functional Art, by Alberto Cairo: http://www.thefunctionalart.com/p/about-book.html

Data visualization-Principles and Practice, by Alexandru Telea: http://www.cs.rug.nl/alext/PAPERS/VISBOOK14/visbook.pdf

VisualisingData.com： http://www.visualisingdata.com/

④注重文字叙述

数据新闻给了我们以量化方式探索某个话题的力量，但它仍是新闻的一种，也就是说，它的本质还是storytelling(讲故事)。如果你只是扔出一堆随机数字，那你并没有做好这项工作。数据及其呈现只是一个开端，你要引导你的读者，讲完这个故事。你要让他们理解为什么那些数字如此重要，它们代表了什么。

正如数据记者Tanveer Ali在《哥伦比亚新闻评论》(Columbia Journalism Review)中所说：“数据是讲故事的一种方式，而非故事本身。”

3、新闻数字使用：选取合适类型，认准权威来源

在新闻中使用数字、采用可视化形式呈现新闻，已经成为新闻报道的普遍做法，看似简单，其实背后技巧多多。

如何在海量数据中抽取数据写进故事？相信这是每一个记者都曾经历或仍在苦恼的问题。伊利诺伊大学厄巴纳香槟分校教授、全球深度报道网董事会主席Brant Houston，拥有丰富调查报道实践和培训经验，总结出了几种新闻记者适合使用的数据类型，并强调最重要的前提：清楚新闻故事中使用的数据是为了解决什么问题，我们才能决定能采取什么样的算法；复杂或者含混的数据时常出现，我们有时需要验证算法，或者自己动手算出新数据。

Brant Houston在分享选取数据的技巧

推荐使用的数据类型：

1.在描述一个地区的人口收入或者住房情况时，以中位数取代平均数。中位数是按大小排列时最中间的数字，比平均数更有代表性，更易让读者理解和推测具体情况，并有助于避免收入差距悬殊且低收入人数较多时，使用平均数会拉高收入水平这一陷阱；

2.使用众数反应频率和集中情况。例如，一共有15个人，两人收入500万，两人收入5万，剩下的收入10万，10万是众数，能说明所在团体大多数人的收入水平；

3.使用比例和比率。采用单位平均数据，要点就更清楚了。比例适用于突出不同主体之间的差别；

4.特别关注比率（百分比）变化。假设一个人今年的收入是4万美元，下一年收入为4.2万美元，前后差了2000美元，从百分比来看，收入变动了5%，或者说涨了5%。两组相关数据的百分比变化中就有新闻可挖。譬如，公司的预算上调了30%，而所购买物品的价格仅上涨了2%，那么背后原因是什么？如果有物品选择、预算决策的信息，说不定就能找到猫腻，写成新闻；

5.计算百分比变化时，我们应关注最显著的变化，舍弃轻微变动。

选好了数据，呈现数据也同样重要，用图表展示比文本列举更直观形象。Houston推荐了表格、线形图、饼图、柱状图，都能让读者清晰阅览数据，一看即懂。

同时，他还推荐了几个易于下载表格数据的权威网站：世界卫生组织的Observatory Data(GHO)、世界银行的数据库、联合国网站（能链接到很多重要统计网站或页面）。

数据到手后，需确定要检索的数据目录，掌握基本的分类，同时确定筛选的标准，要见到树林而非树木——从数据看概况而不是局限在小范围。

4、完整数据处理流程：清楚数据含义，备份、记录、验证一步都不能少

调查记者与编辑协会（Investigative Reporters and Editors，IRE）的执行总监Mark Horvit及培训主管Megan Luther逐步分析了数据可视化当中最通用的数据使用法则，不少都可以迁移到数据处理的完整流程上来。

关于使用数据，选定时间范围非常重要，至少有3年左右的数据对比会更具可信度。

用时间轴展示数据，更容易被读者理解；要想更快更准地选数据，就得明白数据库数据的计算方法。

选取数据后，你还需要在数据分析之前做几件事：先把数据备份，算算关键数据来验证它们是否有效、合理，搞清楚每一行每一列的数据分别代表什么。这里有两点非常重要，一是看看有没有缺失的数据，并了解每一行数据的意义，这样就能加快数据分析；二是清楚所选数据应该一共有多少行多少列，有些国家可能会隐藏部分数据，因此在使用之前一定要确认，以免作品中出现离奇数据，无法自圆其说——换句话说，你要确保数据是连贯的、计算的数字项是前后一致的。除此之外，也不要做数据假设。

数据分析完成后，最好记录下工作流程和得出的结果，不要只存储数据透视表（pivot tables）就草草了事。要把发现写下来，建立备忘录，并准备好接下来要做的事件清单，或为摄影师和网站等单独建立工作清单。同时，应对照IT或数据讲座、培训分享的内容来确认自己做的对不对。提前考虑怎么呈现数据，别等着呈分析完数据才开始，最好在分析过程中即有一定的预想和准备。

验证你的数据分析。筛选分析出的数据包含项，或者使用不同的结构查询语言，检查你的主要发现和工作记录，也让其他人帮助你检查数据。

单纯的数据不等于好故事，把你的结果分享给例如数据来源机构的官员，以验证自己的数据准确度，听听他们的意见。报告、文件中的数字总数和单个数字相加的结果应该一致，与此同时，也要以其他相关信息来验证数据的有效性。

现在终于可以下笔写新闻了！同样，你不能对数据的使用过于大意：最好用表示程度的词来描述数字，例如“至少”、“多于”、“大约”，以避免后面反复修改。不要在一个作品里使用太多数据，也切勿过分推理自己的数据，只写合理且得到验证的结论。写清楚数据的来源，列出你获取数据的机构名称。

此时，记者得不断问自己：我还不知道的部分是什么？这样会导致什么样的错误结果？有没有把所有的发现结果都与信源对照核查过？是不是每一个数据元素（图片、交互式效果等等）都能确切表达它应该表达的意思？我的发现是不是和所有人的认识相冲突？数据的魅力在于它并不能直接开口告诉你错在哪里，而是会通过结果显示出来。如果分析结果与通识完全不一样，你的报道要么精彩绝伦，要么错得离谱。

你还需要一份最后检查的清单：在采访时，让信源拼写自己的名字和称呼头衔；记录或者抄写采访信息；反复验证可靠信源的言论；保存链接和其他研究成果；询问信源其他新闻报道中偏颇之处，避免犯同样的错误。

Regret the error这本书列出了处理数据应该避免的错误一览，可供参考

在提交之前，多重检查可保证万无一失。最后自己再多看看数字、计算方法、名字、头衔、地点、对照笔记和记录检查笔记、定义、链接、拼写和语法、语句引用等，计算机的拼写检查系统也会出错，所以还是参考权威的拼写建议（字典等）更保险。

次浏览