数据是科学,也是艺术。数据使用合适与否,对于建立新闻调查逻辑、推导结论、传达准确可感的内容十分重要,也直接影响受众的观感和认知。深度君选取资深记者和专家的新闻数据经验,告诉你可视化地图、 数据 新闻、普通新闻以及完整流程中里存在的数据陷阱、怎么选用数据才能又保险又合适。
图1 程序优化前的缓存对比
1、可视化地图:完善样本和逻辑,增强说服力
早恋虽美好却易逝——果真如此吗?社交网站Facebook的数据科学小组分析了本网用户信息,想知道学校对择偶的影响。他们的作品“From Classmates to Soulmates”得出结论:已婚人群中,有15%是和中学校友结为伴侣;而已婚的大学毕业生中,约28%是和大学校友喜结连理。
图2 程序优化后的缓存对比
上图是与中学校友结婚的比率,红点表示高比率,蓝点则相反。城市地区往往蓝点较多,乡村等偏僻地区则红点较多。
这个数据分析看似简单,却有许多问题:如果两人虽是校友,却并非在学校遇到,便不能证明是学校牵线搭桥;如果两人不仅上同一个中学,也上了同一个大学,哪一段相处促成了恋爱,也无法统计。另外,如何选择样本、避免系统误差,也是个问题。
针对以上问题,Facebook的分析员采取了如下预设条件:
1) 如果两人上同一所学校的时间差在4年以内,就算作学校促成了这段姻缘;学校的“做媒成功率”是s/n,s是Facebook上某校毕业生与其配偶同校的人数,n是该校已婚毕业生的配偶也提供了学校信息的人数;
2) 如果两人同上过不止一所学校,只计算最早同校的那一所;
3) 只计算年龄在24岁以上、已婚并提供完整信息的用户数据;
4) 只选择(在Facebook上登记的)有1000个以上已婚校友的学校;
5) 女性用户和男性用户数据分开统计,因此两边数据是不对等的,分析时也分开观察。
数据分析的量度也很重要。Facebook分析员选择了如下三个因素作为变量,探究学校的“做媒成功率”与这些因素的关系:
1) 学校大小;
2) 学校的宗教倾向:以-1代表完全非宗教,1代表完全宗教化;
3) 学校的政治倾向:以-2代表非常自由,2代表非常保守。
在这些前提下,一些有趣的发现包括:
1) “做媒成功率”较高的学校大部分是宗教化的学校;
2) 女性嫁给同校男生比率最高的学校是印第安纳州的罗斯-豪曼理工学院(Rose-Hulman Institute of Technology),比例达70.4%;
3) 男性娶同校女生比率最高的学校是爱荷华州的一所高中,虔诚浸会圣经学院和神学院(Faith Baptist Bible College and Theological Seminary),比例达66.8%;
4) 男生比例高的学校,“做媒成功率”高;女生比例高的学校则相反。
这个案例中,数据不是通过针对性问卷获取,因此总有不足。Facebook调查小组也列举出一些缺陷,比如无法确定两人是在学校里才开始恋爱(也可能是之前或之后),所以上述统计是十分初步的;又比如两人虽然上同一个学校,却以不同拼写标示学校名称,统计中就会显示学校不吻合,有漏记风险;再者,数据只包括在Facebook上登记了完整信息的已婚用户,本身就是一个有缺漏的样本。
上图是每个大学的情况,圆圈代表大学,红色表示同校结婚者比例高,蓝色表示比例低;细线则连接了有较高比率“婚姻关系”的两个大学。(顺便推荐一个免费开源软件Gephi,这幅图就是用它制作的。)
2、数据新闻:四大避错要招
人们通常觉得数据新闻从本质上就比其它类型的报道更客观。数字不会说谎,对吧?
错了。
和数据打交道时,有太多办法可以欺骗受众,甚至误导自己,这些错误甚至可能是无心之失。过去一年研究数据新闻的第一手经验让我发现,要犯一些最终导致结论完全歪曲的错误实在是太容易了。以下便是数据新闻四大避错要招:
①上下文比例系数不能缺
没有语境的数字是没有意义的。缺乏背景信息的问题在有关财政支出的新闻中尤其明显,其它类型的报道中这种错误也经常蹦出来。
举个例子:
“纳税人花费十亿美元为非法移民儿童买单”、“福利津贴花掉64亿英镑”——这些天文数字组成的标题听上去让人愤慨不已。但事实是,公共支出数据常常都是天文数字,把数据放到上下文里看,分解到每个人头上,你会发现这些数字可能是完全合理的。
这个故事告诉我们,比例系数通常比绝对数值更有内涵。但比例系数也并不总是最正确的呈现方式。从你的数据出发,想想有什么办法能够最忠实的呈现它。
卫报(The Guardian)数据新闻记者James Ball建议所有数据新闻记者汇总一些基本的数字,既避免犯初级错误,也更容易一眼看出数据和结论是否合理。比如全国处于工作年龄段的人有多少、平均工资、就业率等。这不失为一种办法。
②相关性和因果关系要分开
只要你懂哪怕一点点统计学,你应该知道,相关性和因果关系是两个截然不同的东西。
然而,这一点却总是被新闻编辑室的人忽略。不要仅仅因为刚好有两个变量呈现相关性,就以为你有了条独家新闻。这种相关性完全有可能是其它一些潜在变量引起的,又或者,纯属巧合。
比如下图:
IE浏览器的市场份额 VS 美国谋杀率数据(图片来自Gizmodo)
这张图中IE浏览器的市场份额与美国谋杀率的关系是一个绝佳例子-它们俩的超高相关性是不是看上去容易让人迷惑?想了解更多具有欺骗性的相关性,可以上这个名叫“伪相关”(Spurious Correlations)的网站看看。
③用最合适的方式呈现 数据可视化
这个问题值得专门写一篇文章,甚至好几篇文章,不过这里我只能点到为止。
好不容易,你做完了数据分析,挖出了一条大新闻,但一个差劲的视觉化呈现就能让你前功尽弃。糟糕的可视化可能会让读者产生疑问,甚至可能误导他们。比如,请不要这样......
不要用线形图表 (line chart) 表现离散数据,更不要去尝试那些看上去炫酷的3D饼状图,有可能你还在参与那场关于到底能否截短Y轴的永恒辩论。
数据可视化是艺术,更是科学。这里有一些好的指导书和网站,教你如何避免这些可视化中的潜在陷阱:
The Functional Art, by Alberto Cairo: http://www.thefunctionalart.com/p/about-book.html
Data visualization-Principles and Practice, by Alexandru Telea: http://www.cs.rug.nl/alext/PAPERS/VISBOOK14/visbook.pdf
VisualisingData.com: http://www.visualisingdata.com/
④注重文字叙述
数据新闻给了我们以量化方式探索某个话题的力量,但它仍是新闻的一种,也就是说,它的本质还是storytelling(讲故事)。如果你只是扔出一堆随机数字,那你并没有做好这项工作。数据及其呈现只是一个开端,你要引导你的读者,讲完这个故事。你要让他们理解为什么那些数字如此重要,它们代表了什么。
正如数据记者Tanveer Ali在《哥伦比亚新闻评论》(Columbia Journalism Review)中所说:“数据是讲故事的一种方式,而非故事本身。”
3、新闻数字使用:选取合适类型,认准权威来源
在新闻中使用数字、采用可视化形式呈现新闻,已经成为新闻报道的普遍做法,看似简单,其实背后技巧多多。
如何在海量数据中抽取数据写进故事?相信这是每一个记者都曾经历或仍在苦恼的问题。伊利诺伊大学厄巴纳香槟分校教授、全球深度报道网董事会主席Brant Houston,拥有丰富调查报道实践和培训经验, 总结出了几种新闻记者适合使用的数据类型,并强调最重要的前提:清楚新闻故事中使用的数据是为了解决什么问题,我们才能决定能采取什么样的算法;复杂或者含混的数据时常出现,我们有时需要验证算法,或者自己动手算出新数据。
Brant Houston在分享选取数据的技巧
推荐使用的数据类型:
1.在描述一个地区的人口收入或者住房情况时,以中位数取代平均数。中位数是按大小排列时最中间的数字,比平均数更有代表性,更易让读者理解和推测具体情况,并有助于避免收入差距悬殊且低收入人数较多时,使用平均数会拉高收入水平这一陷阱;
2.使用众数反应频率和集中情况。例如,一共有15个人,两人收入500万,两人收入5万,剩下的收入10万,10万是众数,能说明所在团体大多数人的收入水平;
3.使用比例和比率。采用单位平均数据,要点就更清楚了。比例适用于突出不同主体之间的差别;
4.特别关注比率(百分比)变化。假设一个人今年的收入是4万美元,下一年收入为4.2万美元,前后差了2000美元,从百分比来看,收入变动了5%,或者说涨了5%。两组相关数据的百分比变化中就有新闻可挖。譬如,公司的预算上调了30%,而所购买物品的价格仅上涨了2%,那么背后原因是什么?如果有物品选择、预算决策的信息,说不定就能找到猫腻,写成新闻;
5.计算百分比变化时,我们应关注最显著的变化,舍弃轻微变动。
选好了数据,呈现数据也同样重要,用图表展示比文本列举更直观形象。Houston推荐了表格、线形图、饼图、柱状图,都能让读者清晰阅览数据,一看即懂。
同时,他还推荐了几个易于下载表格数据的权威网站:世界卫生组织的Observatory Data(GHO)、世界银行的数据库、联合国网站(能链接到很多重要统计网站或页面)。
数据到手后,需确定要检索的数据目录,掌握基本的分类,同时确定筛选的标准,要见到树林而非树木——从数据看概况而不是局限在小范围。
4、完整数据处理流程:清楚数据含义,备份、记录、验证一步都不能少
调查记者与编辑协会(Investigative Reporters and Editors,IRE)的执行总监Mark Horvit及培训主管Megan Luther逐步分析了数据可视化当中最通用的数据使用法则,不少都可以迁移到数据处理的完整流程上来。
关于使用数据,选定时间范围非常重要,至少有3年左右的数据对比会更具可信度。
用时间轴展示数据,更容易被读者理解;要想更快更准地选数据 ,就得明白数据库数据的计算方法。
选取数据后,你还需要在数据分析之前做几件事:先把数据备份,算算关键数据来验证它们是否有效、合理,搞清楚每一行每一列的数据分别代表什么。这里有两点非常重要,一是看看有没有缺失的数据,并了解每一行数据的意义,这样就能加快 数据分析 ;二是清楚所选数据应该一共有多少行多少列,有些国家可能会隐藏部分数据,因此在使用之前一定要确认,以免作品中出现离奇数据,无法自圆其说——换句话说,你要确保数据是连贯的、计算的数字项是前后一致的。除此之外,也不要做数据假设。
数据分析完成后,最好记录下工作流程和得出的结果,不要只存储数据透视表(pivot tables)就草草了事。要把发现写下来,建立备忘录,并准备好接下来要做的事件清单,或为摄影师和网站等单独建立工作清单。同时,应对照IT或数据讲座、培训分享的内容来确认自己做的对不对。提前考虑怎么呈现数据,别等着呈分析完数据才开始,最好在分析过程中即有一定的预想和准备。
验证你的数据分析。筛选分析出的数据包含项,或者使用不同的结构查询语言,检查你的主要发现和工作记录,也让其他人帮助你检查数据。
单纯的数据不等于好故事,把你的结果分享给例如数据来源机构的官员,以验证自己的数据准确度,听听他们的意见。报告、文件中的数字总数和单个数字相加的结果应该一致,与此同时,也要以其他相关信息来验证数据的有效性。
现在终于可以下笔写新闻了!同样,你不能对数据的使用过于大意:最好用表示程度的词来描述数字,例如“至少”、“多于”、“大约”,以避免后面反复修改。不要在一个作品里使用太多数据,也切勿过分推理自己的数据,只写合理且得到验证的结论。写清楚数据的来源,列出你获取数据的机构名称。
此时,记者得不断问自己:我还不知道的部分是什么?这样会导致什么样的错误结果?有没有把所有的发现结果都与信源对照核查过?是不是每一个数据元素(图片、交互式效果等等)都能确切表达它应该表达的意思?我的发现是不是和所有人的认识相冲突?数据的魅力在于它并不能直接开口告诉你错在哪里,而是会通过结果显示出来。如果分析结果与通识完全不一样,你的报道要么精彩绝伦,要么错得离谱。
你还需要一份最后检查的清单:在采访时,让信源拼写自己的名字和称呼头衔;记录或者抄写采访信息;反复验证可靠信源的言论;保存链接和其他研究成果;询问信源其他新闻报道中偏颇之处,避免犯同样的错误。
Regret the error这本书列出了处理数据应该避免的错误一览,可供参考
在提交之前,多重检查可保证万无一失。最后自己再多看看数字、计算方法、名字、头衔、地点、对照笔记和记录检查笔记、定义、链接、拼写和语法、语句引用等,计算机的拼写检查系统也会出错,所以还是参考权威的拼写建议(字典等)更保险。
|