您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Modeler   Code  
会员   
 
   
 
 
     
   
 订阅
  捐助
数据使用要领清单:避开陷阱,完善处理流程
 
来源:全球深度报道网 发布于 2016-4-28
   次浏览      
 

数据是科学,也是艺术。数据使用合适与否,对于建立新闻调查逻辑、推导结论、传达准确可感的内容十分重要,也直接影响受众的观感和认知。深度君选取资深记者和专家的新闻数据经验,告诉你可视化地图、 数据 新闻、普通新闻以及完整流程中里存在的数据陷阱、怎么选用数据才能又保险又合适。

图1 程序优化前的缓存对比

1、可视化地图:完善样本和逻辑,增强说服力

早恋虽美好却易逝——果真如此吗?社交网站Facebook的数据科学小组分析了本网用户信息,想知道学校对择偶的影响。他们的作品“From Classmates to Soulmates”得出结论:已婚人群中,有15%是和中学校友结为伴侣;而已婚的大学毕业生中,约28%是和大学校友喜结连理。

图2 程序优化后的缓存对比

上图是与中学校友结婚的比率,红点表示高比率,蓝点则相反。城市地区往往蓝点较多,乡村等偏僻地区则红点较多。

这个数据分析看似简单,却有许多问题:如果两人虽是校友,却并非在学校遇到,便不能证明是学校牵线搭桥;如果两人不仅上同一个中学,也上了同一个大学,哪一段相处促成了恋爱,也无法统计。另外,如何选择样本、避免系统误差,也是个问题。

针对以上问题,Facebook的分析员采取了如下预设条件:

1) 如果两人上同一所学校的时间差在4年以内,就算作学校促成了这段姻缘;学校的“做媒成功率”是s/n,s是Facebook上某校毕业生与其配偶同校的人数,n是该校已婚毕业生的配偶也提供了学校信息的人数;

2) 如果两人同上过不止一所学校,只计算最早同校的那一所;

3) 只计算年龄在24岁以上、已婚并提供完整信息的用户数据;

4) 只选择(在Facebook上登记的)有1000个以上已婚校友的学校;

5) 女性用户和男性用户数据分开统计,因此两边数据是不对等的,分析时也分开观察。

数据分析的量度也很重要。Facebook分析员选择了如下三个因素作为变量,探究学校的“做媒成功率”与这些因素的关系:

1) 学校大小;

2) 学校的宗教倾向:以-1代表完全非宗教,1代表完全宗教化;

3) 学校的政治倾向:以-2代表非常自由,2代表非常保守。

在这些前提下,一些有趣的发现包括:

1) “做媒成功率”较高的学校大部分是宗教化的学校;

2) 女性嫁给同校男生比率最高的学校是印第安纳州的罗斯-豪曼理工学院(Rose-Hulman Institute of Technology),比例达70.4%;

3) 男性娶同校女生比率最高的学校是爱荷华州的一所高中,虔诚浸会圣经学院和神学院(Faith Baptist Bible College and Theological Seminary),比例达66.8%;

4) 男生比例高的学校,“做媒成功率”高;女生比例高的学校则相反。

这个案例中,数据不是通过针对性问卷获取,因此总有不足。Facebook调查小组也列举出一些缺陷,比如无法确定两人是在学校里才开始恋爱(也可能是之前或之后),所以上述统计是十分初步的;又比如两人虽然上同一个学校,却以不同拼写标示学校名称,统计中就会显示学校不吻合,有漏记风险;再者,数据只包括在Facebook上登记了完整信息的已婚用户,本身就是一个有缺漏的样本。

上图是每个大学的情况,圆圈代表大学,红色表示同校结婚者比例高,蓝色表示比例低;细线则连接了有较高比率“婚姻关系”的两个大学。(顺便推荐一个免费开源软件Gephi,这幅图就是用它制作的。)

2、数据新闻:四大避错要招

人们通常觉得数据新闻从本质上就比其它类型的报道更客观。数字不会说谎,对吧?

错了。

和数据打交道时,有太多办法可以欺骗受众,甚至误导自己,这些错误甚至可能是无心之失。过去一年研究数据新闻的第一手经验让我发现,要犯一些最终导致结论完全歪曲的错误实在是太容易了。以下便是数据新闻四大避错要招:

①上下文比例系数不能缺

没有语境的数字是没有意义的。缺乏背景信息的问题在有关财政支出的新闻中尤其明显,其它类型的报道中这种错误也经常蹦出来。

举个例子:

“纳税人花费十亿美元为非法移民儿童买单”、“福利津贴花掉64亿英镑”——这些天文数字组成的标题听上去让人愤慨不已。但事实是,公共支出数据常常都是天文数字,把数据放到上下文里看,分解到每个人头上,你会发现这些数字可能是完全合理的。

这个故事告诉我们,比例系数通常比绝对数值更有内涵。但比例系数也并不总是最正确的呈现方式。从你的数据出发,想想有什么办法能够最忠实的呈现它。

卫报(The Guardian)数据新闻记者James Ball建议所有数据新闻记者汇总一些基本的数字,既避免犯初级错误,也更容易一眼看出数据和结论是否合理。比如全国处于工作年龄段的人有多少、平均工资、就业率等。这不失为一种办法。

②相关性和因果关系要分开

只要你懂哪怕一点点统计学,你应该知道,相关性和因果关系是两个截然不同的东西。

然而,这一点却总是被新闻编辑室的人忽略。不要仅仅因为刚好有两个变量呈现相关性,就以为你有了条独家新闻。这种相关性完全有可能是其它一些潜在变量引起的,又或者,纯属巧合。

比如下图:

IE浏览器的市场份额 VS 美国谋杀率数据(图片来自Gizmodo)

这张图中IE浏览器的市场份额与美国谋杀率的关系是一个绝佳例子-它们俩的超高相关性是不是看上去容易让人迷惑?想了解更多具有欺骗性的相关性,可以上这个名叫“伪相关”(Spurious Correlations)的网站看看。

③用最合适的方式呈现 数据可视化

这个问题值得专门写一篇文章,甚至好几篇文章,不过这里我只能点到为止。

好不容易,你做完了数据分析,挖出了一条大新闻,但一个差劲的视觉化呈现就能让你前功尽弃。糟糕的可视化可能会让读者产生疑问,甚至可能误导他们。比如,请不要这样......

不要用线形图表 (line chart) 表现离散数据,更不要去尝试那些看上去炫酷的3D饼状图,有可能你还在参与那场关于到底能否截短Y轴的永恒辩论。

数据可视化是艺术,更是科学。这里有一些好的指导书和网站,教你如何避免这些可视化中的潜在陷阱:

The Functional Art, by Alberto Cairo: http://www.thefunctionalart.com/p/about-book.html

Data visualization-Principles and Practice, by Alexandru Telea: http://www.cs.rug.nl/alext/PAPERS/VISBOOK14/visbook.pdf

VisualisingData.com: http://www.visualisingdata.com/

④注重文字叙述

数据新闻给了我们以量化方式探索某个话题的力量,但它仍是新闻的一种,也就是说,它的本质还是storytelling(讲故事)。如果你只是扔出一堆随机数字,那你并没有做好这项工作。数据及其呈现只是一个开端,你要引导你的读者,讲完这个故事。你要让他们理解为什么那些数字如此重要,它们代表了什么。

正如数据记者Tanveer Ali在《哥伦比亚新闻评论》(Columbia Journalism Review)中所说:“数据是讲故事的一种方式,而非故事本身。”

3、新闻数字使用:选取合适类型,认准权威来源

在新闻中使用数字、采用可视化形式呈现新闻,已经成为新闻报道的普遍做法,看似简单,其实背后技巧多多。

如何在海量数据中抽取数据写进故事?相信这是每一个记者都曾经历或仍在苦恼的问题。伊利诺伊大学厄巴纳香槟分校教授、全球深度报道网董事会主席Brant Houston,拥有丰富调查报道实践和培训经验, 总结出了几种新闻记者适合使用的数据类型,并强调最重要的前提:清楚新闻故事中使用的数据是为了解决什么问题,我们才能决定能采取什么样的算法;复杂或者含混的数据时常出现,我们有时需要验证算法,或者自己动手算出新数据。

Brant Houston在分享选取数据的技巧

推荐使用的数据类型:

1.在描述一个地区的人口收入或者住房情况时,以中位数取代平均数。中位数是按大小排列时最中间的数字,比平均数更有代表性,更易让读者理解和推测具体情况,并有助于避免收入差距悬殊且低收入人数较多时,使用平均数会拉高收入水平这一陷阱;

2.使用众数反应频率和集中情况。例如,一共有15个人,两人收入500万,两人收入5万,剩下的收入10万,10万是众数,能说明所在团体大多数人的收入水平;

3.使用比例和比率。采用单位平均数据,要点就更清楚了。比例适用于突出不同主体之间的差别;

4.特别关注比率(百分比)变化。假设一个人今年的收入是4万美元,下一年收入为4.2万美元,前后差了2000美元,从百分比来看,收入变动了5%,或者说涨了5%。两组相关数据的百分比变化中就有新闻可挖。譬如,公司的预算上调了30%,而所购买物品的价格仅上涨了2%,那么背后原因是什么?如果有物品选择、预算决策的信息,说不定就能找到猫腻,写成新闻;

5.计算百分比变化时,我们应关注最显著的变化,舍弃轻微变动。

选好了数据,呈现数据也同样重要,用图表展示比文本列举更直观形象。Houston推荐了表格、线形图、饼图、柱状图,都能让读者清晰阅览数据,一看即懂。

同时,他还推荐了几个易于下载表格数据的权威网站:世界卫生组织的Observatory Data(GHO)、世界银行的数据库、联合国网站(能链接到很多重要统计网站或页面)。

数据到手后,需确定要检索的数据目录,掌握基本的分类,同时确定筛选的标准,要见到树林而非树木——从数据看概况而不是局限在小范围

4、完整数据处理流程:清楚数据含义,备份、记录、验证一步都不能少

调查记者与编辑协会(Investigative Reporters and Editors,IRE)的执行总监Mark Horvit及培训主管Megan Luther逐步分析了数据可视化当中最通用的数据使用法则,不少都可以迁移到数据处理的完整流程上来。

关于使用数据,选定时间范围非常重要,至少有3年左右的数据对比会更具可信度。

用时间轴展示数据,更容易被读者理解;要想更快更准地选数据 ,就得明白数据库数据的计算方法。

选取数据后,你还需要在数据分析之前做几件事:先把数据备份,算算关键数据来验证它们是否有效、合理,搞清楚每一行每一列的数据分别代表什么。这里有两点非常重要,一是看看有没有缺失的数据,并了解每一行数据的意义,这样就能加快 数据分析 ;二是清楚所选数据应该一共有多少行多少列,有些国家可能会隐藏部分数据,因此在使用之前一定要确认,以免作品中出现离奇数据,无法自圆其说——换句话说,你要确保数据是连贯的、计算的数字项是前后一致的。除此之外,也不要做数据假设。

数据分析完成后,最好记录下工作流程和得出的结果,不要只存储数据透视表(pivot tables)就草草了事。要把发现写下来,建立备忘录,并准备好接下来要做的事件清单,或为摄影师和网站等单独建立工作清单。同时,应对照IT或数据讲座、培训分享的内容来确认自己做的对不对。提前考虑怎么呈现数据,别等着呈分析完数据才开始,最好在分析过程中即有一定的预想和准备。

验证你的数据分析。筛选分析出的数据包含项,或者使用不同的结构查询语言,检查你的主要发现和工作记录,也让其他人帮助你检查数据。

单纯的数据不等于好故事,把你的结果分享给例如数据来源机构的官员,以验证自己的数据准确度,听听他们的意见。报告、文件中的数字总数和单个数字相加的结果应该一致,与此同时,也要以其他相关信息来验证数据的有效性。

现在终于可以下笔写新闻了!同样,你不能对数据的使用过于大意:最好用表示程度的词来描述数字,例如“至少”、“多于”、“大约”,以避免后面反复修改。不要在一个作品里使用太多数据,也切勿过分推理自己的数据,只写合理且得到验证的结论。写清楚数据的来源,列出你获取数据的机构名称。

此时,记者得不断问自己:我还不知道的部分是什么?这样会导致什么样的错误结果?有没有把所有的发现结果都与信源对照核查过?是不是每一个数据元素(图片、交互式效果等等)都能确切表达它应该表达的意思?我的发现是不是和所有人的认识相冲突?数据的魅力在于它并不能直接开口告诉你错在哪里,而是会通过结果显示出来。如果分析结果与通识完全不一样,你的报道要么精彩绝伦,要么错得离谱。

你还需要一份最后检查的清单:在采访时,让信源拼写自己的名字和称呼头衔;记录或者抄写采访信息;反复验证可靠信源的言论;保存链接和其他研究成果;询问信源其他新闻报道中偏颇之处,避免犯同样的错误。

Regret the error这本书列出了处理数据应该避免的错误一览,可供参考

在提交之前,多重检查可保证万无一失。最后自己再多看看数字、计算方法、名字、头衔、地点、对照笔记和记录检查笔记、定义、链接、拼写和语法、语句引用等,计算机的拼写检查系统也会出错,所以还是参考权威的拼写建议(字典等)更保险。

   
次浏览       
相关文章

基于EA的数据库建模
数据流建模(EA指南)
“数据湖”:概念、特征、架构与案例
在线商城数据库系统设计 思路+效果
 
相关文档

Greenplum数据库基础培训
MySQL5.1性能优化方案
某电商数据中台架构实践
MySQL高扩展架构设计
相关课程

数据治理、数据架构及数据标准
MongoDB实战课程
并发、大容量、高性能数据库设计与优化
PostgreSQL数据库实战培训
最新活动计划
LLM大模型应用与项目构建 12-26[特惠]
QT应用开发 11-21[线上]
C++高级编程 11-27[北京]
业务建模&领域驱动设计 11-15[北京]
用户研究与用户建模 11-21[北京]
SysML和EA进行系统设计建模 11-28[北京]

MySQL索引背后的数据结构
MySQL性能调优与架构设计
SQL Server数据库备份与恢复
让数据库飞起来 10大DB2优化
oracle的临时表空间写满磁盘
数据库的跨平台设计
更多...   

并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理

GE 区块链技术与实现培训
航天科工某子公司 Nodejs高级应用开发
中盛益华 卓越管理者必须具备的五项能力
某信息技术公司 Python培训
某博彩IT系统厂商 易用性测试与评估
中国邮储银行 测试成熟度模型集成(TMMI)
中物院 产品经理与产品管理
更多...