解读科学观点时，你应该知道的20个事实

giga97 · 发表于 29-11-2013 04:11 PM

解读科学观点时，你应该知道的20个事实（上篇）
原文出處：（上） http://www.guokr.com/article/437633/
（下） http://www.guokr.com/article/437634/

（文/William J. Sutherland，David Spiegelhalter，Mark Burgman）近几十年来，关于政治决策与科学更紧密融合的呼吁已经成为老生常谈。然而，无论是从能源到健康，还是从环境到教育，要将科学应用到政策中，仍存在许多严峻的问题。
在此背景下，我们认为当务之急是让政策制定者认识科学那不完美的本质。能够明智地对专家顾问进行问询，能够正确理解证据的质量、局限性和偏差，这些都是政策制定者必需的素质。我们把这些素质称为解读科学的能力（interpretive scientific skills）。这些技能比理解基础科学本身更易掌握，并且可以成为大多数政治人物广泛技能的组成部分。
鉴于此，针对公务员、政治人物、政策顾问、记者以及其他与科学或科学家打交道的非专业人士，我们提出了20个在培养自身科学素养时需要掌握的概念。一个倡导科学的、具有怀疑精神的政治人物，一定会希望用这些重要的知识武装自己。当然，其他人也许会列出略有不同的清单。重点是，我们认为如果社会对这20个概念有了更广泛理解，将标志着社会的一大进步。
1.条件差异和几率都会引起变化。现实世界的变化是不可预测的，而科学想探究是什么造就了这些变化。为什么现在比过去十年更热？为什么某些地区的鸟比其他地方的多？关于这些趋势有很多解释，科学研究的最大挑战是从无数的其他来源的变化中，梳理出我们感兴趣的过程所起到的作用（比如，要研究气候变化对于鸟类数量的影响，就要把“气候变化”这个因素，从农业集约化、入侵物种的传播这类大范围变化，以及一些偶然发生，却可以决定生死的本地小规模事件中剥离出来）。

我们看到的现象通常是许多因素共同影响的结果。
图片来源：

masterpassioncreed.deviantart.com

2.没有绝对准确的测量事实上，所有测量都存在误差。每一次重复试验都可能得到不同的结果。在某些情况下，与实际变化相比，测量误差也许会很大。比如，如果你得知上个月的经济增长了0.13%，那么实际上缩减的可能也是存在的。提出结果时应该给出结果的误差范围，以避免不合理精确度的出现。

即使用所能达到的最完善的方法进行测量，误差也还是会存在，而不会达到绝对精确。
图片来源：3quarksdaily.com

3.偏倚是很普遍的实验设计或测量装置可能会对实验结果造成影响，在某一特定的方向上产生非典型结果。比如，通过访问路人、家里人和网民来确定投票行为，由于样本的成分不同，所以可能会得到不同的结果。而因为那些有“统计上显著”的结果更可能会被报道和出版，科研论文会倾向于用夸张的说法来阐述问题的严重性和解决办法的效用。实验中的偏倚很可能这样产生：实验的参与者知道自己接受的是不同的治疗，所以会尝试表现的不同；调查者们对结果的收集会受“知道谁接受了治疗”的影响。其实理想实验应该是双盲的（Double-Blind），即参与者和收集数据的研究者都不知道哪些参与者接受了什么处理。这在药物试验中是很容易做到的，但是对于社会问题就不可能。科学家们在希望找到数据来补充之前的调查结果，或者想反驳一个观点的时候，比较容易产生确认倾向（confirmation bias）。

单盲实验和双盲实验的示意漫画。而在实际情况下，并不是所有研究都能采用理想的双盲实验方法，容易产生偏倚。
图片来源：intro2psych.99k.org

4.样本量通常越大越好大的样本量得到的平均观测结果往往比小样本量的更有益。因为当我们积累证据的时候，我们的理解也在加深。这对那些变量多、容易产生测量误差的复杂体系尤其重要。一种药物的有效性在每个个体间都存在差异，因此为了在药物测试中更可靠、准确的估计药物的平均功效，就要选择一个有数以万计的样本的实验，而不是使用一个只有数百个样本的。

当看到一个吸引眼球的研究结论时，在奔走相告之前，不妨先了解一下这个研究的样本量。
图片来源：explorable.com

5.相关关系不代表因果关系假定一件事物可以导致另一事物固然是很诱人的。然而，相关关系的得出有时候是出于偶然，又或者某两种看似相关的因素的关系，其实是由复杂的或潜在的第三因素决定的。比如，生态学家曾一度确信是有毒藻类杀光了河口的鱼；但其实是这些藻只是恰巧长在了鱼死的地方而已，并不是藻类导致鱼类死亡。

相关不等于因果，而不代表相关就不可能是因果关系。
图片来源：guokr.com

6.统计回归效应可能造成误导单次测量中，至少有一部分极端的数据是由于偶然或误差造成的，进行另一次测量，数据可能就没有那么极端（或显著）了。比如，在经常发生车祸的地方放置一个测速相机，但随后事故率的减小并不能归因于放了测速相机，因为在此情形下，无论是否放测速相机，事故率都很可能向减少的方向发展。

在设计科学实验、解读实验结果时，研究者必须考虑统计回归效应（向均数回归效应）带来的影响，以避免推论错误。
图片来源：tabmathletics.com

7.数据范围之外的推断存在风险在某一范围得到的模型可能出了这个范围就不适用了。所以，评价生态系统对于气候变化的反馈是十分困难的。当气候变化得比现存物种在进化史中所经历过的任何时期都要快，或是出现一个全新的极端天气系统时，以前的数据就都不靠谱了。

试着体会这个梗：“这个世界上只有两种人，一种人能用不完备的数据进行推论。”
图片来源：ksonico.blogspot.hk

8.注意基本概率谬误通过一个并非绝对准确的检验来判定一个事物状态的能力取决于这一状态发生的概率（基本比率）。比如，一个人做了有99%准确度的血液测试来检测一种罕见疾病，结果呈阳性，但这个人可能根本没这病。如果10001个人来参加这个测试，其中只有一个人有病，假设这个人的结果肯定呈阳性，但还有100个人（1%的人）即使没有感染疾病，测试结果也会呈阳性。这种类型的计算在包括机场安检在内的筛查工作中相当重要。

假设一个机器人能够以99%的正确率区别金币的真假，并且判断出了一堆假币。那么当你从假币堆中拿出其中一枚，这枚硬币的确是假币的几率是多少？如果你直觉地回答“99%”，那么就陷入了基本概率谬误之中。
图片来源：balance-today.org

9.对照很重要除了待测变量之外，对照组与实验组要保持一样的条件。没有对照组，就很难知道实验处理究竟对结果有没有影响。它可以帮助科学家在复杂体系中找到相关关系。必须控制变量（例如设置安慰剂组），才能确定药物中的有效成分。因为一些人在药物测试中表现出阳性可能是因为环境、提供测试的人甚至只是因为药丸的颜色。在这种情况下，设置对照组（例如安慰剂组）就非常重要。

“亲爱的，去跟他谈谈吧，他刚刚发现自己是个安慰剂。”当前在新药开发等研究中，安慰剂对照实验发挥着重要作用。
图片来源：mrsaverettsclassroom.com

10.随机化能够避免偏倚实验应该尽可能采集随机样本。例如直接比较有参与健康计划的家庭和没有参与健康计划的家庭中孩子的学习成绩，是很容易带上偏倚的（因为受教育程度较高的家庭也许本来就更可能参与健康计划）。因此，好的实验设计应当随机选取参加或未参加健康计划的家庭作为样本。

样品的选择也会影响实验结果，随机取样能帮助研究者避免偏倚的结论。
图片来源：ccelearn.csus.edu

我们并不会天真到相信有了这些提示，政策方针就会自动得到改进。我们十分清楚科学判断本身是有价值负载的，也了解偏差和语境跟数据的采集及阐述方式息息相关。我们提供的只是一些简单的想法，以帮助政策制定者理解科研证据对决策的作用，避免潜在既得利益者造成的不正当影响。然而难点在于，社会公众对不同政策的接受程度，仍取决于政治人物本身和更广泛的政治过程。
编译自：William J. Sutherland, David Spiegelhalter, Mark Burgman.Twenty tips for interpreting scientific claims.Nature.文章题图：DAWID RYSKI. Nature.

本帖最后由 giga97 于 29-11-2013 04:29 PM 编辑

giga97 · 发表于 29-11-2013 04:13 PM

解读科学观点时，你应该知道的20个事实（下篇）

（文/William J. Sutherland，David Spiegelhalter，Mark Burgman）从蜜蜂数目减少的问题到核能的利用问题。科学界观点与政府政策不一致的情况屡有发生。要将科学观念贯彻到政策制定中，前路依然崎岖。
为了改善这一现状，我们开始鼓励越来越多的科学家参与政治。尽管此项举措值得赞赏，但期望科学家大举参政并不现实。另一提议是扩大首席科学顾问的作用，增加他们的数量、可用性与在政治过程中的参与度。然而，这两种方法都没有解决核心问题——议会投票者中那些科盲们。
或许我们可以向政治人物们教授科学？这个想法很吸引人，但是哪个政治人物会有如此充足的时间呢？实际上，他们几乎从不阅读科学论文和相关书籍。顾问或外部咨询人会给政治人物们阐述与时下热点相关的研究，例如线粒体置换、牛结核病、核废料处置问题等。然而，很少会有人会为了一个政策问题去精心设计一个有大量样本和明确结论的双盲随机重复对照实验。
鉴于此，针对公务员、政治人物、政策顾问、记者以及其他与科学或科学家打交道的非专业人士，我们提出了20个在培养自身科学素养时需要掌握的概念。我们认为，如果社会对这20个概念有了更广泛理解，将标志着社会的一大进步。
以下是20条建议中的后10条：

11.寻求“重复”而非“伪重复”在大量实验、独立群体中重复出现的数据更有可能是可靠的。基于多个实验的系统回顾或元分析能够提供单一研究无法媲美的信息。在一组（有某些相同特征）的人中加入干预时，结果很可能是误导的。比如在一个班级的孩子中做实验，这些孩子除了这个干预以外还有许多其他共同特征。如果把在这些孩子中得到的实验结果推广到其他不具有相同特点的群体中，其实就是犯了“伪重复”的错误。伪重复会导致研究者对结果产生没有根据的信心。加拿大纽芬兰大浅滩就是因为“伪重复”实验得出鳕鱼数量丰富的结论，导致了世界最大鳕鱼渔场的倒闭。

重复有利于提高实验结果的可靠程度。但在实验设计时，需要注意避免落入“伪重复”的陷阱。
图片来源：PAUL BLOW

12.科学家也是人科学家也想在促进他们工作的过程中得到某些利益，通常是地位或研究经费，某些时候可能是更直接的经济获益。这种情况可能导致数据的刻意选择与夸大。同行评价不是绝对可靠的；期刊编辑可能更支持积极的、富有新闻价值的结果。多元、独立的数据来源及重复结果才更可信。

“科学家也是人，他们和其他人群一样存在偏倚。但他们的确也有很大的优势：因为科学是个自我纠正的过程。”——著名生理化学家西里尔·庞南佩鲁马。
图片来源：izquotes.com

13.显著性很重要统计显著性表示一个事件出于偶然而发生的几率，用P表示。科学家习惯将P＜0.05的情况称为显著。比如一项实验中实验组与对照组的差异显著性是P=0.01，这表示“偶然因素导致了实验组和对照组的差异”的可能性是1%。

差异显著性指标常用于假设检验。通常情况下，P <0.05时，科学家才可以得出数据间具备显著性差异的结论。
图片来源：cafepress.com

14.不显著不代表没效果统计学上不显著（P>0.05）不代表真正的无效，只代表它的影响没有被我们发现而已。小型研究也许很难找出真正的差异。比如用基因改造的抗虫棉和抗虫马铃薯做实验，结果提示这些作物对诸如传粉者的益虫不存在不利影响，但实际上这样小的样本量并不能证明它们对益虫到底有何影响。

差异不显著也并不等于差异不存在。图片来源：memegenerator.net

15.效应量很重要微弱的反应很难被监测到。一项多次重复的实验也许会得到统计上显著但效应量很小的结果（因此，可能显得并不那么重要。）我们要重点考虑的是实验在生物、物理或社会学意义上的影响，而非统计学意义上的。二十世纪九十年代，美国期刊《流行病学》（Epidemiology）的主编要求作者们停止使用统计学显著性，因为他们总会误读这项数据，从而得出不科学和不正确的公共卫生政策。

数据差异是否在统计上显著和数据均数差异的大小是不一样的概念。在差异究竟有多大时，我们需要关注效应量（effect size）。
图为不同Cohen d系数所表示的差异情况。图片来源：维基百科

16.研究关联性会限制结论的一般化科学研究结果能否应用与否取决于研究条件和实际情况是否相差的不多。比如从实验室动物实验中得到的结果运用到人类的时候就很有局限性。

研究对象不同，研究的条件和结果会有所差异。因此不要轻易将某项研究的结论一般化。
图片来源：medicalxpress.com

17.感觉会影响风险感知宽泛地讲，人们通常认为“风险”=“某个时间段内某一事件发生的概率”×“这个事件所引发的结果”。很多因素都会对人类的风险感知造成不同程度的影响，包括事件的罕见性、人们自以为对事件的掌控程度、结果的不利影响、风险是否自发等。比如，美国人就会100倍低估在家携带枪支的危险，而10倍高估住在核反应堆旁边的危险。

一些风险认知（横线以上）和实际风险（横线以下）的差异：从左至右依次为高温、恐怖袭击、癌症、坠机、车祸、电磁波。
图片来源：susannahertrich.com

18.相关性会改变风险计算独立事件的结果是有可能的，比如极潮、强降水和关键员工的缺席。但如果这些事件相互关联（比如风暴会导致高水位，而强降水会导致关键员工的缺席），它们共同发生的几率就比预期更大。信用评级机构对一大波次级房贷违约风险的低估就是2008年信贷市场崩溃的主要原因。

风险评估必须考虑所关注的事件之间的相互关联程度。
图片来源：sanguosha.com

19.数据是可以被挖掘和挑选出来的有时为了支持自己的观点，实验者会选择对预期结果有利的数据。在想解读怀孕时的酸奶摄入量和后代患哮喘之间的相关性时，我们首先要明确研究者是本来就打算验证这一假说，还是在一大堆数据中偶然发现这一相关性的。相比之下，像证明希格斯玻粒子存在这样研究（研究证据还得经过旁视效应修正），数据的挑选就困难多了。要学会问这个问题：有啥是他们没告诉我的？

“……这是我们保存不显著结果的地方。”——不当的数据选择行为目前仍是切实存在的问题。
图片来源：someecards.com

20.极端测量值可能会引起误导由于个体能力差异、取样、偏见、测量误差等因素的影响，所有数据测量的整理结果都具有可变性。例如学校的教学效率就会因为老师的能力、受试学生的代表性、学校所处地域、指标测量方法等因素的影响而呈现差异。但在解释研究结果的时候，除个体差异之外的因素常常会被忽略掉。这种做法会导致结论过于极端，或者出现将极值与平均值或范围作比较的情况，这都很成问题。排行榜就是其中的典型，很少有靠谱的结论。

科学在普及、进步的过程中总会遭遇各种阻力。加深人们对科学的认识，社会最终将因此获益。
图片来源：world.edu

编译自：William J. Sutherland, David Spiegelhalter, Mark Burgman.Twenty tips for interpreting scientific claims.Nature.文章题图：DAWID RYSKI. Nature.

本帖最后由 giga97 于 29-11-2013 04:28 PM 编辑

yuheng1996 · 发表于 30-11-2013 01:40 PM

这个是大学物理的内容吧，我表哥每天都在搞这个==

		自动登录	找回密码
密码			注册

解读科学观点时，你应该知道的20个事实

评分

评分

所属分类: 资讯科技

浏览过的版块