type
status
date
slug
summary
tags
category
comment
icon
password
此文可能有一定难度和专业门槛。但随附有简单的逻辑测试,您可以尝试一下。
人工智能摘要如下,原文随附于后。
核心观点总结:评价一项科学或统计研究的批评是否重要,关键在于看这个批评如果被修正,会在多大程度上改变研究的结论,以及这种改变又会在多大程度上影响我们基于该研究可能做出的决策或采取的行动。
深入解析:
- 决策导向很有用: 将研究结果与现实决策联系起来思考,是一个非常强大的思维工具。它能帮助你穿透表面细节,抓住问题的实质。
- 关注研究设计和因果推断: 很多严重的批评都与研究设计缺陷(如缺乏对照组、没有随机化、没有盲法)和错误的因果推断有关。理解好的研究设计原则(比如随机对照试验为什么是金标准)和因果推断的基本逻辑(相关不等于因果,如何识别混淆变量等)非常有价值。
- 统计学很重要,但要深入学习: 文章说的没错,统计学在现代科学中无处不在。学习它是理解世界的关键。但要警惕“劣质统计学的低谷”,不要满足于一知半解。如果你对科学感兴趣,深入学习统计学(尤其是其背后的逻辑和思想,而不仅仅是公式)会非常有帮助。
- 学习区分批评的重要性: 这是最难的部分,也是最有价值的部分。当你看到或想到对一项研究的批评时,试着问自己:“如果这个批评是真的,并且我们修正了它,结论会改变多少?这种改变是否足以让我(或者政策制定者、医生、普通人)做出不同的决定?”
- 练习: 尝试用这个标准去思考你遇到的研究或新闻报道。比如,看到一项研究说某种食物可以抗癌,但研究对象是老鼠,或者样本量很小,或者只是观察性研究(相关性)。问问自己,这些批评是否足以让你改变对这种食物的看法,或者改变你的饮食习惯?
- 保持批判性思维: 不要轻易相信你读到的每一项研究结果,即使它发表在顶级期刊上。认识到科学是一个过程,充满了不确定性和潜在的错误。
核心思想:
- 对统计学教学的启示
- 作者批评了传统统计学教学方法,即教授一堆孤立的检验和技巧(t 检验、ANOVA 等),让人觉得混乱且缺乏统一逻辑。
- 建议的改进方向:
- 统一视角: 将各种检验视为线性模型的特例。
- 强调决策论基础: 解释统计方法为何有效(或无效)是基于在特定假设(如损失函数)下优化决策。
- 引入贝叶斯方法: 提供一个更统一、更符合直觉的推理框架(模型+先验→后验)。
- 使用因果模型 (如 DAGs): 帮助系统性地理解和处理各种偏见。
- 用决策视角重新审视批评
- 作者用这个视角重新评估了一些常见的批评:
- 相关=因果: 重要。因为因果判断直接影响干预决策。
- 分布假设: 通常不重要。除非关注极端值(尾部),否则微小改变不影响决策。把李克特量表当连续变量处理虽然理论上不完美,但实践中很少改变结论,所以是“小过失”。
- 遗传混淆: 重要。控制遗传后效应可能消失,直接推翻基于原始相关性的决策。
- 过拟合: 在机器学习中通常重要。因为性能是使用模型的主要决策依据。
- 稻草人原假设: 重要。新疗法需要和现有最佳疗法比,而不是和“什么都不做”比,这直接关系到是否采用新疗法的决策。
- 未能拒绝 H₀ ≠ 证明 H₀: 重要。可能导致错误解读证据方向,做出错误决策(如误以为某风险因素不存在)。
- 低效设计: 重要。可能浪费资源,或者由于功效不足而错过真实效应,影响后续研究或应用决策。
- 测量不变性: 重要。关乎研究结果的真实含义(是提高了通用能力还是特定技巧?),影响干预价值的判断和决策。
- 混淆测量变量与潜变量: 重要性取决于用途。做理论研究和做实际筛选(如招生、招聘)时,对测量误差的处理和关注点不同,直接影响结论和决策。校正测量误差可能完全改变潜变量重要性的结论。
- 缺乏盲法: 重要性取决于情境。对于易受主观影响、效应较小的研究(如心理学实验),盲法缺失可能致命;对于硬终点(如死亡率)、效应大的研究,影响可能较小。
- “信念是为了行动”:决策论是统一标准 💡
- 这是文章的核心哲学观点。我们建立信念、进行分析,最终是为了指导行动和决策。
- 关键: 统计批评的重要性最终要落实到它是否可能改变我们的决策。
- 即使是“纯粹研究”: 这个标准也适用。因为即使没有明确的应用目标,我们也希望研究能增进可靠的知识。伪造的数据、充满错误的数据库、无法排除安慰剂效应的研究,都无法产生可靠知识,最终也无助于未来的任何(哪怕是未知的)应用决策。
- 不可重复性的决策含义: 如果一个结果不可重复,要么它是假的,要么它太小或太脆弱以至于在不同情境下不可靠。无论哪种情况,基于这个结果做决策的风险都极大,通常不值得。
- 区分“好的批评”和“坏的批评”
- 坏批评的标准:
- 不是因为它无聊或重复: “相关不等于因果”虽然听腻了,但对于很多研究来说,这确实是关键问题。
- 不是因为违反了某个假设: 所有模型都是对现实的简化,总能找到不完美之处。关键是这种不完美是否“足够”影响结论和决策。
- 不完全等于“不可重复”: 可重复的垃圾研究依然是垃圾(比如高质量地重复证明了顺势疗法“有效”)。
- 与 p 值关系不大: 把 p=0.05 改成 p=0.06 通常没什么实质意义。后验概率从 99% 降到 90% 是否重要?也未必。
- 与效应大小的增减本身无关: 效应大小被高估一倍,可能是致命的,也可能无所谓,取决于具体情况(如不确定性大小、效应本身的大小)。
- 通常与预测能力(如 R²)关系不大: 不是所有研究都以预测为首要目标。
- 好批评的特征(基于决策影响): 作者给出了一些例子,比如:
- 发现研究者隐藏了不利结果。
- 发现研究者有重大利益冲突。
- 发现在控制了家庭/遗传因素后(如在同卵双胞胎中比较),相关性消失了。
- 发现机器学习模型在留出样本上表现不佳(过拟合)。
- 发现随机对照试验(RCT)结果与相关性研究结果相反。
- 发现药物的效果依赖于是否使用盲法(暗示安慰剂效应)。
- 数据造假。
- 共同点: 这些批评之所以“好”,是因为它们强烈暗示了研究结果的不可靠性或解释错误,足以改变我们对研究结论的信任度,进而影响我们是否会依据该研究采取行动。
- “万事皆有大小”:五花八门的潜在问题
- 作者列出了一长串研究中可能出现的统计问题(见原文列表)。这个列表非常全面,涵盖了从数据处理、研究设计、统计分析到结果解释等各个方面。
- 关键点: 这些问题的严重性天差地别。有些是致命的(比如数据造假,把相关性当因果),有些是令人遗憾但研究仍有价值的(比如样本量不够理想但已是现实条件下最好),还有些通常是次要的,甚至不值一提。
- 挑战: 对于非专家(甚至很多专家)来说,很难准确判断列表中每个问题在特定研究中的具体影响有多大。这需要经验积累和对领域背景的深入理解。没有简单的“检查清单”能完美解决这个问题。
- “劣质统计学的低谷”:一知半解的危险 😥
- 作者用了一个很形象的比喻:“劣质统计学的低谷”(Valley of Bad Statistics)。意思是,刚学了一点统计学知识(就像刚学了点逻辑谬误或认知偏见),很容易变得“看啥都不对”,到处挑毛病,但却抓不住重点。
- 类比1 (形式逻辑): 刚学了“人身攻击”谬误,就可能在别人质疑某人因被贿赂而说谎时,跳出来说“这是人身攻击,逻辑无效!” 但实际上,在这种情况下,质疑动机(人身攻击)是非常相关的归纳推理。
- 类比2 (认知偏见): 很容易看到别人陷入“确认偏见”,却很难意识到自己也可能如此。
- 统计学: 了解了各种统计陷阱(phacking, 低统计功效, 各种偏见等)后,可能会对所有研究都持怀疑态度。虽然适度的怀疑是必要的(因为烂研究确实很多),但过度的、不加区分的怀疑,或者把次要问题当成致命缺陷来攻击,可能会让你自己做出错误的判断,或者阻碍对有价值研究的认可。这就像用刚学到的锤子乱敲一通,结果可能把有用的东西也砸坏了。
- 解决方案:基于“决策影响”的实用标准
- 标准: 作者提出了一个非常实用的判断标准:一项批评的重要性 = (修正该批评后研究结论的改变程度) × (结论改变对后续决策/行动的影响程度)。
- 举例说明:
- 普遍重要的批评: 研究欺诈、因果推断错误(比如把相关当因果)、导致效应被严重高估的偏见。为什么重要?因为如果一个所谓的“因果效应”实际上是零或者小得多,那么基于这个效应做出的几乎所有决策(比如是否推广某种疗法、是否实施某项政策)都可能需要改变。这影响太大了!💥
- 通常不太重要的批评: 测量误差(只要不是特别离谱)、对数据分布的假设(比如数据是不是严格符合正态分布)。为什么通常不重要?因为修正这些问题,往往只会对研究结论的大小产生微小的调整,不太可能从根本上改变结论的性质(比如从“有效”变成“无效”),因此对最终决策的影响也较小。当然,这也有例外,后面会提到。
- 问题的提出:科学研究并非完美,批评无处不在
- 现状: 作者开篇就点明,科学研究(特别是依赖统计学的)需要批判性阅读。原因?“可重复性危机” (Reproducibility Crisis) 告诉我们,很多已发表的研究结果是无法被其他独立研究者重复验证的,这意味着它们可能是错误的或质量低劣的。元科学的发展也证实了这一点。
- 困境: 然而,任何研究都可能因为没有达到某个“理想”标准而被批评。批评可以有很多种,从指出致命缺陷到看似合理的吹毛求疵。那么,我们怎么知道哪些批评是真正重要的,哪些只是“为了批评而批评”,甚至是为了某种目的而进行的修辞攻击呢?
讲一个笑话:现在怎么赚钱?
—— 骗子:私
—— 傻子:求带
下面提出了一些经典案例,希望大家可以简单测试一下?就当放松小游戏。
- 近日,某款磁性笔销量大增,买家主要是中小学生。磁性笔由多个磁力小部件组成,依靠强大的磁性可任意变换出不同的造型,颇具娱乐性。磁性笔商家称,磁性笔能开发智力,寓教于乐,让孩子爱上写字,学龄以上孩子都可以安全使用。 以下哪项如果为真,最能质疑商家的说法? A. 该磁性笔磁力小部件重金属超标,可能对使用者健康造成危害 B. 某调查发现,初三的大部分学生认为磁性笔很无聊,是给小孩子玩的 C. 家长普遍反映,孩子上课只顾着玩磁性笔,听课效率比以前下降了很多 D. 一个四岁孩子在玩磁性笔时不慎吞咽了散落的磁力小部件,造成肠穿孔
- 今年夏天,街边冷饮摊上的冰激凌普遍涨价,多款畅销产品的价格都有不同程度的上涨。有人认为,这是因为冰激凌中的中高端品种越来越多,使消费者对价格较高的冰激凌有更高的接受度,最终导致了冰激凌的市场价格普遍上涨。 以下最能削弱上述论断的一项是: A. 中高端品种冰激凌刺激了其他品种冰激凌的市场价格上涨 B. 低价冰激凌的品种同样越来越多,并且味道也很受欢迎 C. 某家大型超市的冰激凌平均价格未出现明显上涨 D. 厂家和经销商的经营成本、用工成本不断上涨
- 研究中,实验组小鼠每天晚上接受两小时的蓝光照射,对照组小鼠白天接受两个小时的蓝光照射。三周之后,所有小鼠进行“强迫游泳”和“糖水偏好”测试。这两项测试常用来检测小鼠是否出现了类似抑郁的症状。结果发现,相比于白天接受光照的小鼠,夜间接受光照的小鼠明显表现出类似抑郁的症状。研究者认为,长期在夜间暴露于蓝光下,人们出现抑郁情绪的风险会提高。 以下除哪项外,均能削弱研究者的观点? A. 小鼠与人的生活习性完全不同,小鼠昼伏夜出,而人类基本是白天活动,晚上休息 B. 光对于小鼠是厌恶型刺激,小鼠回避光以降低被发现和捕食的风险,而人通常在光明的环境感觉更加安全 C. 行为测试是否能够测试主观情绪体验,类似抑郁的症状是否等同于出现抑郁的情绪体验,尚存在争议 D. 相比白天,夜间的光照更容易通过视网膜神经节细胞激活伏隔核,该脑区与负性情绪的产生有关
- 某消费导向杂志在读者中做了一项调查,以预测明年的消费趋势。在被调查者中,有 57% 的人在明年有奢侈品项目消费的计划。该杂志由此推测:明年消费者的消费能力会很强。 以下哪项如果为真,最能削弱该杂志的推测? A. 该刊物的读者要比一般消费者富有 B. 并非所有该刊物的读者都对调查作了回答 C. 大多没有奢侈品项目消费计划的人都打算存钱买房 D. 计划购买的奢侈品大多是进口的,并不能刺激国内市场
- W 国对咖啡领域的调查显示,过去 W 国咖啡领域的融资金额高达 5 亿元,该国许多知名企业跨界进入咖啡领域,本土咖啡品牌在快速崛起。然而经过去年一年的销售发现,W 国线下咖啡门店的总数量虽然有所增加,但咖啡销量与往年相比并未明显增加,因此有人认为:咖啡在 W 国居民中不是很受欢迎。 以下哪项如果为真,最能削弱上述观点? A. W 国个别线下门店提供的速溶咖啡添加了植脂末、白砂糖等成分,摄入过多不利于身体健康 B. 与一些咖啡销量高的国家相比,W 国咖啡的单价过高,在一定程度上阻碍了消费欲望 C. W 国的一些企业开始向咖啡液、速溶咖啡、袋泡咖啡等全品类进军 D. 当前,W 国的咖啡文化并不成熟,作为消费主体的年轻人喝咖啡也大多是赶潮流
- 为了解当下大学生对军事的关注程度,某教授列举了 20 种军事装备,请 30 位大学生识别。结果显示,多数人只识别出 2 到 6 种装备,极少数人识别出 15 种以上,甚至有人全部都不能识别。其中“海鹞战斗机”的辨识率最高,30 人中有 19 人识别正确;“舰载式战斗机”所有人都未能识别。20 种军事装备的整体识别错误率超过 75%。该教授由此得出,当代大学生对军事的关注程度并没有提高,甚至有所下降。 以下哪项如果为真,最能对该教授的结论构成质疑? A. 教授选取的 20 种军事装备不具有代表性 B. 教授选取的 30 位大学生均不是军事院校的学生 C. “舰载式战斗机”这种战斗装备有些军事迷也未能识别 D. 教授选取的 30 位大学生中约有 50% 对军事不感兴趣
- 研究人员基于生物库大样本队列,采用生物电阻抗测量脂肪含量,分析其与死亡风险的关系,结果显示脂肪含量过少与死亡风险增高存在关联。研究人员认为,脂肪含量过少的人,死亡风险会增高。 以下哪项如果为真,最能削弱上述结论? A. 在生活方式不健康的人群中,脂肪含量过多或过少均会增加死亡风险 B. 脂肪含量过多给人带来的死亡风险,高于脂肪含量过少带来的死亡风险 C. 脂肪含量过少和死亡风险高都是由疾病带来的,疾病是二者的共同原因 D. 低脂肪的饮食可以改善血脂的代谢、降低胆固醇、降低低密度脂蛋白的水平
- 某教师收集了本班学生的语文学习兴趣、每天的学习时长等信息,结合期末考试语文成绩分析后发现,与每天语文学习时长不足 2 小时的学生相比,学习超过 2 小时的学生学习兴致普遍更高,其语文期末考试平均分也更高。该教师由此得出结论,增加语文学习时长能够有效培养学习兴趣,进而提高语文成绩。 下列选项若为真,最能质疑上述结论的是: A. 该班级期末考试语文成绩最好的学生每天学习语文 1 小时 B. 该班级的语文期末考试平均分高于其他班级 C. 语文学习兴趣高的学生拥有更好的学习习惯 D. 只有语文学习兴趣高的学生才乐于花更长时间学习语文
- 人们普遍认为,保持乐观心态会促进健康。但一项对 7 万名 50 岁左右的女性进行的长达十年的追踪研究发现,长期保持乐观心态的被试者与悲观被试者在死亡率上并没有差异,研究者据此认为,心态乐观与否与健康没有关系。 以下哪项如果为真,最能质疑研究者的结论? A. 在这项研究的被试者中悲观的人更多患有慢性疾病,虽然尚未严重到致命的程度 B. 与悲观的人相比,乐观的人患病后会更积极主动地治疗 C. 乐观的人往往对身体不会特别关注,有时一些致命性疾病无法及早发现 D. 女性更善于维持和谐的人际关系,而良好的人际关系有助于健康
- 某高校针对去年起图书馆的图书借阅情况做了调查,数据显示,文学类书籍的借阅量大大超过了科技类书籍。因此,文学类书籍的受欢迎程度要高于科技类书籍。 以下哪项如果为真,最能削弱上述论证? A. 科技类书籍学习难度较大 B. 文学类书籍占该校图书馆馆藏一半以上 C. 该校就读文科专业的学生接近三分之二 D. 除了文学类书籍,法律、哲学类书籍也很受欢迎
- 某段时间内,在经历了较长时间的持续下跌后,全球范围内的原油价格出现了明显的反弹,但是原油价格在突破了每桶 70 美元大关后,其反弹势头突然中止了。对于此次原油价格反弹中止的原因,有学者认为,这是由主要市场需求疲软造成的。但是,有反对人士指出,并非主要市场需求疲软导致了此次原油价格反弹中止,而是由全球原油库存增加导致的。 以下哪项如果为真,最能削弱反对人士的观点? A. 主要市场需求疲软是导致原油库存增加的原因 B. 随着经济提振,原油库存增加不可能持续下去 C. 部分国家实际上正面临着原油库存不足的局面 D. 主要生产国的产能过剩导致全球原油库存增加
- 有研究称,暴露在高强度手机类辐射条件下,雄性老鼠在心脏附近出现肿瘤,因此,手机辐射可能导致人类患上癌症。 下列哪项如果为真,不能削弱上述结论? A. 人类使用手机受到的辐射时间远低于实验中老鼠受到的辐射时间 B. 手机辐射与对人体构成伤害的 X 光等电离射线不同,属于非电离辐射 C. 人类使用手机受到的辐射强度低于对老鼠实验时采用的手机辐射强度 D. 暴露在高强度手机类辐射下的雌性老鼠和幼鼠没有出现肿瘤
- 心理学家考察了 450 位中年男性和女性,他们中有白领阶层,也有蓝领阶层;有技能判断型人群,也有决策制定型人群。结果发现,那些身居重要职位的高管人士普遍比一般员工更胖。研究者认为,做出许多决定所承受的压力通过饮食方式得到排解,这最终在一定程度上改变了高管人士之前的饮食习惯,如果你的职位幸运地得到晋升,你将发现不仅是薪水变多,自己的腰围也在变粗,伴随着体重上升。 以下哪项如果为真,最能质疑上述结论? A. 比较而言,技能判断型人群的腰围较小,决策制定型人群的腰围较大 B. 比较而言,身居要职的高管人士更难抽出时间投入锻炼以缩小腰围 C. 每晋升一次,技能判断型人群的腰围平均会减少 0.5 厘米 D. 每晋升一次,决策制定型人群的腰围平均会增大 0.28 厘米
- 心理学家曾做过一个实验,将被试者分为两组,给他们看同一张交通事故的照片,并询问有关车速的问题。对第一组问“你认为是以多快的速度相撞的”,而对第二组则问“你认为是以多快的速度猛烈撞击到一起的”。后者是让人想到撞击非常猛烈的表达方式。一周后,再询问被试者“汽车的挡风玻璃是否撞碎了”(实际上并没有撞碎)。结果显示,回答“是”的人,第二组的比例比第一组多两倍以上。心理学家由此得出结论:人类的记忆并不是固定的,而是根据之后获取的信息而变化。 以下哪项如果为真,最能削弱心理学家的结论? A. 第二组被试者的人数比第一组的多 B. 第二组被试者的记忆力本来就偏弱 C. 时隔一周再询问的合理性有待斟酌 D. 两组被试者在认知水平上没有差距
- (2019 新疆兵团 87)埃博拉病毒仅存在于长臂猿的体内,这种病毒对长臂猿无害但对人类却是无药可医。虽然长臂猿不会咬人,但是埃博拉病毒可以通过蚊子传播,蚊子咬了长臂猿再去叮咬人类,人类就会被传染。因此,如果蚊子灭绝,人类就不会感染埃博拉病毒。 以下哪项如果为真,最能质疑上述结论? A. 叮咬长臂猿的蚊子和叮咬人类的蚊子不是同一品种 B. 蚊子是繁殖能力和适应能力都非常强的动物,很难被灭绝 C. 长臂猿只生活在赤道附近的热带雨林中,只有极少数的人能接触到 D. 一些人会将长臂猿的皮毛加工成皮毛制品,这些加工后的皮毛制品也能传播该病毒
- (2021 新疆兵团行政执法 88)某研究团队最新研究显示,偏头痛患者的大脑视觉皮层会“过度兴奋”。招募 60 名志愿者参加了相关试验,其中有一半人患有偏头痛。试验中研究人员向志愿者展示了条纹栅格测试图,并让他们回答看后是否感到不舒服;进一步的测试中,还让他们在看图的同时接受脑电图测试。结果发现那些患偏头痛的志愿者在看到条纹栅格测试图后脑部的视觉皮层出现了较明显的反应。 以下哪项为真,最不能削弱研究者的结论? A. 在那些没有患偏头痛但对视觉刺激比较敏感的某些志愿者中,视觉皮层也会出现类似反应 B. 此项研究中所研究的样本数量过少,没有说服力 C. 偏头痛患者看除条纹栅格测试图之外的其他测试图,大脑视觉皮层并未有明显反应 D. 志愿者在做此项试验之前并未受到其他因素干扰
- (2019 山东 91)近年来科技的迅猛发展为科幻小说创作提供了启发,也为科幻小说创作提供了丰富的素材。科幻小说的主题即是围绕着科技幻想、揭示科技发展带来的社会问题及其给人类带来的启示而展开的。因此科幻小说的蓬勃发展是科技发展的结果。 以下哪项如果为真,最能削弱上述结论? A. 伴随着西方工业革命产生的科幻小说经历了初创、成熟和鼎盛三个历史时期 B. 科技发展拓展了科幻小说的想象空间,科幻小说为科技发展提供了人文视角 C. 科技只是科幻小说中的背景元素,科幻小说本质上还是要讲述一个完整的故事 D. 科幻小说展现了人类的愿望,最终推动科技发展将那些梦想变为现实
- (2022 山西 107)近日,有科学家撰文指出,即使保持现有的城市和农田面积,地球上至少还有种植 1 万亿棵或 1.5 万亿棵树的空间,面积可达 900 万平方公里,大致相当于美国的国土面积。而这些新树未来几十年里可以从大气中吸收近 7500 亿吨导致温室效应的二氧化碳,这几乎等同于人类在过去 25 年排放的碳污染的总和。因此,该科学家认为,对抗全球变暖最根本的方法是,种植 1 万亿棵或 1.5 万亿棵树。 以下各项如果为真,最能质疑这位科学家观点的是: A. 还有其他可行方法可以应对气候变化,例如让人们从吃肉转向吃素 B. 对燃烧石油、煤炭和天然气的依赖,才是导致全球变暖的根本原因 C. 随着全球变暖尤其是热带地区变干燥,当前树木植被已在大片消失 D. 只有年轻的树木才能从空气中清除更多碳污染,热带地区最具潜力
- (2021 广东选调 58)有研究者分析了公元前 735 年至公元 800 年左右的 50 处玛雅墓葬后发现,玛雅社会的统治阶级日益青睐以玉米为原料的食物。由于公元 800 年左右曾多次发生旱灾,而旱灾频发会严重影响玉米的收成,因此有研究者认为,过度偏重玉米的农业结构正是导致玛雅文明灭亡的决定性因素。 下列选项最不能削弱上述论证的是: A. 玛雅社会中底层人民并不以玉米为主食 B. 旱灾同样会严重影响水稻等作物的收成 C. 公元 800 年左右,玛雅文明受到了外族入侵 D. 有严重旱灾的情况下玉米的产量仍能维持一定比例的人口生存
- (2018 四川下 79)一项调查发现,在牛奶人均消费量大的地区,癌症的发病率较高;而牛奶人均消费量少的地区,癌症发病率极 low。有人据此得出结论:饮用牛奶会使癌症的发病率上升。 以下哪项如果为真,最能质疑上述结论? A. 癌症发病率高的地区,其他疾病的发病率相对较低 B. 牛奶含钙量高,吸收好,而且睡前喝牛奶有助于睡眠 C. 调查中牛奶人均消费量大的地区,人口总数也相对较大 D. 牛奶人均消费量大的地区居民寿命较长,且罹患癌症的主要是中老年人
- (2021 福建 98)许多人在拍照时喜欢摆出“剪刀手”动作。对此,有人认为,如果手离镜头足够近,相机分辨率足够高,拍出的照片一旦上网,黑客就能通过照片放大技术和人工智能增强技术将照片中的人物指纹信息还原出来。这会让指纹认证及个人身份信息无密可保。因此,拍照时摆出“剪刀手”动作存在安全风险。 以下哪项如果为真,最能质疑上述结论? A. 目前智能手机虽在高速发展,但是分辨率还不足以拍出清晰的指纹 B. 即使是高清网传照片,通过它还原指纹信息也存在一定的技术门槛 C. 实验证明,网络照片受自身清晰度影响不满足识别指纹信息的条件 D. 从电子照片中提取到用户指纹信息的相关报道,实为愚人节新闻
- (2020 广东选调 20)现在研究生毕业的难度比十年前要高得多。因为现在大部分学校都要求研究生毕业前必须在期刊上发表论文,而众所周知,现在各类期刊的退稿率比十年前提高了好几倍。 以下最能够质疑上述观点的是: A. 各类期刊对投稿论文的审核标准比十年前严格了很多 B. 各类期刊的种类、数量比十年前均略有增长 C. 现在的研究生倾向于重复投稿,这会导致被退稿 D. 部分专业的研究生不需要在期刊上发表论文也能毕业
以下为原文内容:
科学研究和统计研究必须以批判性的眼光来阅读,以理解其主张的可信度。可重复性危机(Reproducibility Crisis)和元科学(meta-science)的发展表明,许多研究质量低下,而且常常是错误的。但是,任何一项特定的研究都可能因无数种原因而受到批评,因为它达不到一个无法企及的理想标准,这使得我们不清楚哪些可能的批评是重要的,而且这些批评可能会沦为纯粹的修辞。我们如何区分致命缺陷、不幸的警示以及看似有理的吹毛求疵?我提供一个实用的标准:一项批评之所以重要,在于如果纠正了它,能在多大程度上改变研究结果,以及这又会在多大程度上改变我们的决策或行动:即它在多大程度上是“能带来差异的差异”。这就是为什么研究欺诈、因果推断或导致高估的偏见等问题普遍重要:因为一个所谓的“因果”效应结果被证明是零效应或被严重高估,几乎会改变所有基于此类研究的决策;而另一方面,其他同样常见的问题,如测量误差或分布假设,通常并不重要:因为它们通常只会对结论产生较小的改变,因此对决策的影响也较小。如果我们经常问一个批评是否会产生这种差异,我们就能更清楚地知道哪些是重要的批评,哪些可能只是修辞上的干扰,阻碍了对研究的有意义的评估。 学习统计学是很棒的。如果你想阅读和理解一般的科学论文,几乎没有什么比学习统计学更好的了,因为如今_一切_都涉及到统计问题,并依赖于日益强大的统计方法和大型数据集,无论是像机器学习这样光鲜亮丽的技术,还是像遗传学家利用数百万人的生物样本库这样平凡的工作。如果你对统计学至少没有一些掌握,你将越来越被科学技术的进步所抛弃,无法有意义地讨论它们在社会中的应用,所以如果你对这些话题感兴趣,你必须有良好的统计学基础——或者说,我是想这么说的。但问题在于……学习统计学可能很危险。 劣质统计学的低谷 ========================================================================================================================================= 就像学习一些形式逻辑或关于认知偏见一样,统计学似乎属于那种可以说“一知半解是危险的事情 / 要么深入畅饮,要么别碰智慧之泉 / 浅尝辄醉, / 大量饮用方能使我们清醒”的东西。 当你刚学了一些形式逻辑和谬误知识时,很难不用这把闪亮的新锤子到处玩“谬误宾果”(混合隐喻):“啊哈!先生,这是一个人身攻击,逻辑上无效的反驳。”当然,问题在于,许多谬误作为归纳逻辑的一部分是完全合理的:人身攻击通常是高度相关的(例如,如果这个人被贿赂了)。严格坚持形式三段论充其量是浪费大量时间,最坏的情况是,通过选择性地应用严谨性,成为自我欺骗的工具。 类似地,认知偏见很难有效利用(因为它们在某些情况下是有信息量的先验概率,而在常见的有害情况下,人们通常已经学会了更好的方法),但却很容易被滥用——总是更容易看到别人是多么可悲地陷入了确认偏见的陷阱。 万事皆有大小
对于统计学,稍作阅读和自学,很快就会了解到一项研究在统计上可能出错的无数种方式。尽管人们很快就会变得怀疑,正如 Ioannidis、Gelman、可重复性危机以及太多科学发现彻底崩溃的例子所表明的那样,人们可能还不够怀疑,因为现实中确实存在大量有问题的研究。以下是一些潜在的问题,故意不按特定顺序列出:
- 由数据处理(例如比例/百分比数据,或对共同时间序列进行标准化)引起的“伪相关”
- 多重性(multiplicity):测试了许多子组或假设,但只报告了统计显著的结果,并且没有控制总体错误发现率(false detection rate)
- 缺失数据未建模
- 将动物体内(in vivo)实验结果应用于人类
- 实验对象是普通儿童而非同卵双胞胎
- 在元分析(meta-analysis)中检测到发表偏倚(publication bias)
- 未能拒绝原假设(null hypothesis)或一个正的点估计被解释为支持原假设的证据
- “统计显著与非统计显著之间的差异本身并不统计显著”
- 选择了不合适的分布,例如用正态分布变量模拟对数正态分布变量(“他们(对先验)吹毛求疵,却(对似然)囫囵吞枣”)
- 未使用单盲、双盲或安慰剂
- 一项遗传学研究测试了1个基因与某个性状之间的相关性
- 一项智商实验发现某项干预提高了某些智商子测试的前后得分,从而声称提高了智商
- 横断面研究(cross-sectional study)而非纵向研究(longitudinal study)
- 忽略了多层结构(例如数据是从学校、国家、家庭、公司、网站、个体渔船、维基百科编辑者等的子单元收集的)
- 报告 GWAS 多基因评分的表现时,仅使用达到全基因组统计显著性的 SNP
- 存在非零的受试者流失(attrition),但未使用意向性治疗分析(intent-to-treat analysis)
- 使用了固定的 alpha 阈值,如 0.05
- 将相关性数据解释为因果关系
- 使用了“不可识别”(unidentified)的模型,需要额外的约束或先验
- 未进行预注册的分析是在查看数据后进行的;各种形式的 phacking
- 使用特定原因死亡率(cause-specific mortality)而非全因死亡率(all-cause mortality)作为测量指标
- 使用了具有高测量误差的测量方法(例如饮食问卷)
- 天花板/地板效应(ceiling/floor effects)(尤其是在智商测试中)
- 基于质量差异巨大的测量结果对潜变量做出断言
- 或在“控制”了中间变量后,比较一个变量的总效应与另一个变量的纯粹间接效应
- 或者声称一个变量介导了某个效应,却没有实际建立中介结构方程模型(mediation SEM)
- 研究的统计功效(power)严重不足,无法检测到合理大小的效应
- “统计显著性过滤器”夸大了效应大小
- 基率谬误(base rate fallacy)
- 自我选择的调查受访者;来自 Mechanical Turk 或 Google Surveys 或类似服务的便利样本(convenience samples)
- 动物实验的随机化未按窝/笼/房间进行区组(blocking)
- 使用了大型数据集并获得了许多统计显著的结果
- 进行了因子分析(factor analysis)但未建立测量不变性(measurement invariance)
- 实验者需求效应(experimenter demand effects)
- 使用了 SVM/神经网络(NN)/随机森林(RF)但没有进行交叉验证或使用留出样本(heldout sample)
- 使用了它们,但数据预处理或超参数选择是基于整个数据集进行的
- 被动控制组(passive control groups)
- 没有进行析因实验(factorial experiment),而是在每个组上测试一种干预
- 扁平先验(flat priors)高估了效应
- 报告相对风险增加而未报告绝对风险增加
- 一项遗传学研究测试了 500,000 个基因与某个性状之间的相关性
- 研究者/资助者的利益冲突
- 缺乏设计实验所需的功效分析(power analysis)
- 将李克特量表(Likert scales)作为简单的连续基数变量进行分析
- 为了降低方差/提高功效,在单一近交或克隆品系的动物中进行实验(Michie1955)
- 右删失数据(right-censored data)
- 测量值的时间自相关(temporal autocorrelation)
- 遗传混淆(genetic confounding)
- 依赖交互项(interaction terms)
其中一些问题是大问题——甚至是致命的,以至于这项研究不仅毫无意义,而且如果相关研究人员从未发表过,世界可能会变得更好。另一些问题虽然严重,令人遗憾,但受其影响的研究仍然有用,并且可能是在合理范围内能做的最好的研究。还有一些缺陷通常是次要的,几乎肯定无关紧要,甚至将其作为“批评”提出来都可能具有误导性,因为它暗示该缺陷值得讨论。许多问题则完全取决于具体情况,可能从瞬间致命到轻微麻烦不等。
但哪些是哪些呢?你可能能猜到其中一些属于哪一类,但如果你知道我指的是所有这些问题,或者对每个问题的重要性有充分 обоснованным 的信念,我会感到惊讶,因为我不知道,而且我怀疑很少有人知道。也没人能告诉你每个问题有多重要。似乎只能通过经验来学习,观察事物在元分析中被复制或减弱,或多年来被证伪,从而逐渐体会到什么是重要的。有一些检查清单和专业手册1 可以阅读和使用,它们至少具有检查清单的优点,即系统地提醒需要检查的事项,减少了挑剔批评的诱惑,我推荐使用它们,但它们并非完整的解决方案。(在某些情况下,它们推荐的东西相当糟糕,而且没有哪个可以被认为是_完整_的。)
难怪统计批评有时感觉像是一场血腥运动,或者感觉像学习统计显著性检验:一长串特殊案例的检验,几乎没有条理或原因,构成了一本充满任意公式和仪式的“食谱”,主要用于“中产阶级式的轻蔑驳斥”。
过了一段时间,你学到的东西足够多,可以对任何研究抛出一长串批评,无论它们是否相关,进行“伪分析”2,这会贬低批评的价值(研究肯定不会_都_同样毫无价值),并冒着与形式逻辑或认知偏见相同的问题——仅仅是将其武器化,费尽心力让自己错得更离谱,并用更复杂的方式为自己的错误辩护。(多年来,我批评过许多研究,虽然对其中许多研究的批评远不及它们应得的程度,并且后来得到了证实,但我不能诚实地说我总是对的,或者我没有偶尔稍微‘画蛇添足’。)
Backlinks (1) for “万事皆有大小”:
- 我们应该如何批判研究? (context):
\[backlink context\]相关但非决定性
那么,我们所说的统计批评是什么意思?什么构成好的或坏的统计反对意见?
糟糕的批评
在此我想说:一个可以转动但其他任何东西都不随之移动的轮子,不是机制的一部分。路德维希·维特根斯坦,§271,《哲学研究》
批评的好坏不能仅仅因为它无聊并引人白眼——如果在约 2000-2010/2015 年的每一次遗传学讨论中,都有人喋喋不休地谈论统计功效和多基因性,并声称所有这些令人兴奋的新候选基因和基因-环境交互作用结果都是胡说八道,整个文献都是垃圾,那么读这样的人的文章会非常恼人,很快就会让人厌烦,但他们绝对是正确的。(或者对于营养研究,或者对于社会心理学,或者对于……)尽管读到又一个人喊口号“相关性≠因果关系”或“是的,那是在老鼠身上做的!”可能会很令人恼火,但不幸的是,对于许多研究来说,这就是应该说的全部,无论我们对此多么厌倦。
批评的好坏不能在于某个假设被违反(或未被证明或无法证明),或者现实世界的某个方面被忽略,因为所有的统计模型都是高度抽象、粗略的简化。因为_总是_可能识别出一些不恰当的正态性假设问题,或某些未建模的自相关,或某些未包含的非线性项,或遗漏的先验信息,或数据在某些方面的缺乏。检查清单、预注册和其他技术可以显著提高质量,但永远无法解决这个问题。除了对计算机模拟进行同义反复的分析之外,不存在也从未存在过完美的统计分析,如果存在,那它也会复杂到任何人都无法理解(这本身也是一种批评)。我们所有的模型都是错误的,但有些可能是有用的,而一个好的统计分析仅仅是‘足够好’。
批评的好坏不能在于结果是否“可重复”。可重复性除了说明如果以同样的方式收集更多数据,结果将保持不变之外,并没有太多意义。虽然一个不可重复的结果充其量是有问题的价值(它很可能从一开始就不是真实的3),但一个可重复的结果也不能保证质量。一个人可能有一个一致的“垃圾进,垃圾出”(GIGO)过程,但可重复的垃圾仍然是垃圾。收集更多的数据可能只是更精确地估计该过程的系统误差和偏差。(无论你能找到多少已发表的顺势疗法论文表明顺势疗法有效,它都无效。)
批评的好坏当然与 p-值关系不大,无论是在一项研究中还是在其重复研究中(因为没有什么有趣的事情与 p-值有关);如果我们纠正一个错误并将一个特定的 p-值从 p = 0.05 改为 p = 0.06,那又怎样?(“当然,上帝喜爱 0.06 可能和喜爱 0.05 差不多……”)后验概率虽然有意义且重要,但也不是标准:如果一项研究中某个参数大于零的后验概率从 95% 变为 94%,这重要吗?或者大于 99%?或者大于 50%?如果一项批评在修正后将后验概率从 99% 降低到 90%,这就是我们所说的重要批评吗?大概(咳咳)不是。
批评的好坏也与效应大小的增加或减少无关。如果一项研究犯了一些错误,导致其产生的效应大小是应有值的两倍,这可能是绝对致命的,也可能基本无关紧要。也许不确定性至少有那么大,所以一开始就没人把点估计当真,或者每个人都理解错误的潜在可能性,并明白点估计只是一个上限。或者也许效应是如此之大,以至于即使高估了 10 倍也不是问题。
批评的好坏通常与预测能力无关(无论是用 R² 还是 AUC 等量化);纯粹的预测只是一部分研究的目标(尽管如果能证明某个特定选择导致较低的预测得分,那将是一个很好的批评),并且在许多情况下,最好的模型根本不具备特别强的预测能力,而一个模型预测能力_过强_反而是一个危险信号。
统计学家不再是炼金术士,期望从提供给他的任何毫无价值的材料中生产出黄金。他更像是一位化学家,能够精确测定其中有多少价值,并且能够提取出这个量,不多也不少。在这种情况下,因为统计学家的结果精确而称赞他,或者因为结果不精确而责备他,都是愚蠢的。如果他在自己的技艺上是称职的,那么结果的价值完全取决于提供给他的材料的价值。它包含这么多信息,仅此而已。他的工作只是产出其所包含的东西……对劣质数据进行极其费力的计算可能会将产出率从 95% 提高到 100%。增加了 5%,也许只是总数的一小部分。对收集过程或实验设计进行一次称职的彻底检查,通常可以在相同的时间和劳动力成本下,将产出率提高十倍或十二倍。……在实验结束后咨询统计学家,往往只是请他进行一次_尸检_。他或许能说出实验死于何因。
什么才算好的批评?
嗯,如果发现了一项研究的草稿,其主张基于某个变量的统计显著效应,但在最终发表的版本中,却省略了该变量,只谈论另一个不同的变量,人们就会产生疑问。发现一项研究的作者从一个受益于该研究结果的公司那里收受了数百万美元,会严重动摇人们对结果的信心。如果一种相关性在比较家庭内的兄弟姐妹时根本不存在,或者更好的是,在同卵双胞胎中不存在,或者如果这种相关性在其他数据集或其他国家中不存在,那么无论它在那个特定数据集中得到多么有力的支持,都会令人担忧。如果一个花哨的新机器学习模型声称比当前最优(SOTA)模型性能高出 2%,但结果发现它没有正确使用留出样本,实际性能相同,那么机器学习研究人员无疑会对其印象大打折扣。如果有人证明一项随机对照试验(RCT)得出了与相关性分析相反的效应大小,大多数人会认为这很重要。如果一种主要的新抗癌药物在最新的试验中被吹捧为与常规化疗效果相当且副作用更少,但人们看到两者都是与零效应的原假设进行比较,并且新药的点估计值低于常规化疗,患者还会想使用它吗?如果一项心理学实验在使用被动控制组和主动控制组时结果不同,或者一项手术的结果取决于临床试验是否使用了盲法,这肯定是一个问题。如果数据完全是伪造的,那当然值得一提。
根据上面概述的一些传统观点,这些都是本质上不同的。那么,它们有什么共同点使它们成为好的批评呢?
只有当结果与其可能与真相的差异量小到对于实验目的来说微不足道时,结果才是有价值的。赔率应该是多少取决于:
- 实验性质所允许的精确度,以及
- 所涉问题的重要性。
司徒顿 (Student), 19044 此外,经济学方法(如果不是因为贵族式或清教徒式的禁忌而被拒绝的话)似乎是唯一能够清晰区分不确定性(或概率论)逻辑中哪些是矛盾的、哪些不是矛盾的方法。这是瓦尔德 (Wald) 的‘可容许性’ (admissibility) 概念提供的基本教训……概率论和决策论只不过是研究同一主题——不确定性——的两个版本(理论和实践)。
但我认为它们的共同之处在于这个基于决策论的理由,它统一了批评(并且也会统一统计学教学法):
一项统计批评的重要性在于,它有多大概率会改变基于该研究做出的假设性决策。
我认为 p-值不是后验概率,后验概率不是效应大小,效应大小不是效用,效用不是利润,利润不是决策。二分法来自于决策。所有的分析最终都是决策分析:我们的信念和分析可能是连续的,但我们的行动是离散的。
当我们批判一项研究时,我们摸索追求的标准最终是落实到现实世界的行动和决策制定,这个标准本质上是依赖于具体情境的,不承认明确界限,并取决于研究的用途和动机,根植于什么是正确的做法。5(译注:此处原文引用了一个“扩展大脑” meme 图片,描述了对一项小型研究的不同层次的评估,最高层次是基于决策理论的)
我们应该如何评估一项小型研究?
这与达到某个任意的“显著性”水平无关,与是否“功效充足”无关,与元分析中估计异质性的某个 k 值无关,甚至与任何特定的后验概率或效应大小阈值都无关;这与违反某个特定假设无关,除非违反该假设导致模型不够“好”并会导致错误的决策;这与重复性有松散的联系(因为如果一个结果在未来将要采取行动的情境中无法重复,那么它对计划就没用),但并非由其定义(因为一个结果可能重复得很好,但仍然毫无用处)。
通过询问研究的目的是什么以及它将如何影响下游决策,许多这些批评的重要性可以变得更加直观。我们不需要进行正式的决策分析,从数据一直到贝叶斯分析,再到效用和因果模型进行比较(尽管这样做会很有用,并且在边缘情况下可能是必要的),非正式的考虑可以是一个好的开始,因为人们可以直观地猜测下游的影响。
我认为,即使对于那些尚不清楚研究将如何具体应用的“纯粹”研究问题,我们也可以有意义地应用这个标准。我们对认识论、科学方法论以及哪些实践倾向于产生可靠知识有深入的了解。(当人们因为纯粹研究有衍生应用的先例,比如数论衍生出密码学,而为其辩护时,这个论点本身就意味着衍生应用并非_那么_不可预测,并且这是一个成功的实用主义辩护!我们进化出的好奇心可能是有用的,这肯定不是偶然的。)
例如,即使没有为某些研究设定具体目的,我们也能明白为什么伪造数据是最糟糕的批评:因为没有任何决策可以通过使用伪造数据而变得更好。正如费曼所说:“对于成功的技术,现实必须优先于公共关系,因为自然是无法被愚弄的。” 许多假设或捷径在某些情况下会奏效,但没有任何情况下伪造的数据(与现实无关)会奏效;即使在伪造数据被一丝不苟地伪造以完全复制对现实的最佳理解的情况下6,它也会通过夸大证据量来损害决策,导致过度自信和探索不足。
类似地,草率的数据收集和测量误差。微生物学家在发现 CRISPR 之前不可能预先知道它,它是在比较 DNA 数据库中的奇怪条目时发现的,这是纯粹研究如何带来巨大收益的一个很好的例子。但是,如果 DNA 数据库不完整,充满了错误标记/污染的样本,或者测序做得马虎,序列基本上是随机垃圾,你怎么能从中发现_任何东西_?如果你研究的是‘癌细胞’,而它们是一个错误标记的细胞系,实际上是肝细胞,这怎么可能增加关于癌症的知识呢?
或者考虑安慰剂效应。如果你得知某项研究的结果完全是由安慰剂效应驱动的,并且使用盲法会得到无效结果,我可以有把握地预测——无论领域、主题或其他任何因素如何——你几乎总是会非常失望。如果一项研究仅仅测量了安慰剂效应(具体来说是需求或期望效应),这是致命的,因为安慰剂效应已知普遍适用(所以再次证明它的发生并不有趣),其作用机制是通过狭窄的心理因果途径,会随着时间的推移而减弱,并且不影响硬终点(如死亡率),同时它不影响那些看似被安慰剂偏倚的研究操纵的无数因果机制(而这些机制的操纵实际上在即时和理论构建上都是有用的)。比如说,如果心脏支架除了通过安慰剂效应外,并不能减少实际的胸痛,我们为什么要使用它们?确实有_一些_例外情况,在我们得知结果只是安慰剂效应后会无动于衷(慢性疼痛治疗?轻度流感?),但并不多。
那么不可重复性呢?对心理学可重复性危机最简单的解释是,大多数结果都不是真实的,只是随机噪音,通过 p-hacking 发表出来。辩护者提出的最仁慈的解释是,这些效应_是_真实的,但它们要么很小,要么高度依赖于具体细节(精确的地点、纸张的颜色、实验者等),以至于即使与原始研究人员合作也不能保证重复一个效应。同样,这提出了一个从决策理论角度来看特别具有破坏性的三难困境:
- 要么结果不是真实的(对决策毫无用处),
- 要么它们比报告的要小得多(因此对于任何类型的应用或理论构建都远没有那么有用),
- 要么它们是如此脆弱,以至于在任何未来的情境中,它们几乎同样可能变成其他效应,甚至是相反方向的效应,以至于它们的平均效应实际上为零(因此毫无用处)。 决策先于信念。我们的本体论和认识论源于我们的决策论,而非相反。这在逻辑上似乎是颠倒的,但这正是我们所处的境地,作为在不确定性下思考和行动的进化而来的具身存在:就像奥托·纽拉特 (Otto Neurath) 的木筏上的水手——我们无处可以‘站到一旁’,从零开始构建所有的信念和知识,而是站在木筏上,一块一块地检查和修复它。对怀疑论者(如普兰丁格 (Plantinga))的自然主义回答是,我们的信念并非因为它们是经验的、进化的或最终在时间上始于试错而不可靠,而是_因为_它们已被逐渐进化到在实践中对于决策是正确的,并且由于进化的约束,发展出了关于世界的可靠知识和科学方法。(一个颠倒流程的例子是 Deutsch-Wallace 试图在决策论的基础上建立MWI 量子力学中的玻恩定则 (Born rule);更早的时候,像司徒顿 (Student)、弗兰克·拉姆齐 (Frank P. Ramsey)、亚伯拉罕·瓦尔德 (Abraham Wald)、伦纳德·萨维奇 (Leonard J. Savage)、霍华德·雷夫 (Howard Raiffa) 和 罗伯特·施莱弗 (Robert Schlaifer) 等统计学家表明,大部分统计学可以建立在决策制定的基础上,而不是相反,这由主观概率学派和像荷兰赌 (Dutch book) 这样强制一致性 (coherency) 的方法所证明。)
决策分析的威胁比其执行更强大。安德鲁·盖尔曼 (Andrew Gelman), 2019 一个好的经验法则是,‘如果我给这个数字加个零,包含它的句子对我来说会有不同的意义吗?’如果答案是‘否’,也许这个数字一开始就不应该出现在句子里。兰德尔·门罗 (Randall Munroe) 用更偏向决策论的视角重新审视一些示例批评:
- 对假设相关=因果的批评是一个好的批评,因为相关性通常不是因果关系,从隐含的~100%确定性转变为更现实的 25% 或更低,会改变许多决策,因为仅这一观察结果就将期望值降低了 >75%,这是一个足够大的惩罚,足以排除许多听起来诱人的事情。
- 因为因果效应是如此核心的话题,任何影响相关性而非因果关系推断的方法论错误都是重要的错误。
- 对分布假设(例如观察到变量更像是学生 t 分布而不是正态分布)的批评通常_不是_一个重要的批评,因为任何关键变量的后验分布变化将是微小的,并且只能改变那些一开始就处于临界状态(因此价值不大)的决策。
- 这里有例外,在某些领域,这可能至关重要。分布方面,使用正态分布代替对数正态分布通常是次要的,因为它们在分布的主体部分非常相似……除非我们讨论的是它们的_尾部_,比如在顺序统计背景下(在任何类型的选择或极端分析中都很常见,例如就业、体育、媒体或自然灾害,或在漏斗效应过程中),尾部更极端的点才是重要的;在这种情况下,使用正态分布将导致对这些异常值会偏离多远的严重低估,这可能具有重大的实际意义。
- 另一方面,将李克特量表视为基数变量是一个统计学上的罪过……但这只是一个小过失,每个人都会犯,因为李克特量表通常等同于一个(噪音更大的)正态分布变量,以至于完全正确的转换为具有潜变量的序数量表最终会需要大量额外工作,而实际上并不改变任何结论,因此也不改变行动。7
- 类似地,时间自相关通常不像人们说的那么严重。
- 社会学/心理学相关性与遗传混淆容易受到批评,因为控制遗传因素通常会使相关性大幅缩小,常常缩小到零,从而消除了大部分因果预期。
- 对训练集过拟合并且实际性能与当前最优(SOTA)相似或更差,是机器学习中较为严重的批评之一,因为具有更好的性能通常是任何人想要使用一种方法的原因。(但当然——如果新方法具有引人入胜的新颖性,或具有其他实际优势,那么对于某些人来说,过拟合是一个次要的批评是完全合理的,因为他们想要的是其他原因,性能上的一些损失是次要的。)
- 使用稻草人原假设 (strawman null hypothesis):在医学背景下同样如此,重要的是新疗法与现有最佳疗法相比的成本效益,而不是它是否碰巧比什么都不做要好;重要的是比默认行动更具成本效益,这样人们才会选择新疗法而不是旧疗法,如果净估计结果是它可能稍微差一点,他们为什么要选择它呢?
- 将未能拒绝原假设解释为证明原假设为真:这通常是一个问题。显著性检验的逻辑,就其本身而言,要求在任何未拒绝原假设的时候保持不可知论,但贝叶斯推理——缺乏证据即为证据缺乏——是如此直观,以至于如果显著性检验没有证实一个假设,我们自然会将其解释为_反对_该假设的证据。然而实际上,它很可能是_支持_该假设的证据,只是证据_不够充分_:因此,一个理性的人可能会得出与他们查看实际数据时相反的结论。
- 我想起了那些使用小样本估计弓形虫 (Toxoplasma gondii) 与事故之类事物之间相关性的研究,在得到一个与其他更大型研究几乎相同的点估计(即感染预示着坏事)后,由于样本量小而恰好不具统计显著性,便得出结论说他们发现了_反对_存在相关性的证据。人们应该得出相反的结论!(解释结果的一个启发式方法是问:“如果我将这个结果输入到所有结果的元分析中,它会加强还是削弱元分析的结果?”)
- 低效的实验设计,例如使用组间设计(between-subject)而不是组内设计(within-subject),或者在双胞胎实验中不使用同卵双胞胎,可能在实践中很重要:正如司徒顿 (Student) 在讨论拉纳克郡牛奶实验时指出的那样,除了其他问题外,使用未进行任何匹配或区组化的随机儿童意味着统计功效不必要地低,并且如果设计得更好,拉纳克郡牛奶实验本可以用_小 97%_ 的样本量完成,这将带来巨大的费用节省(这些节省的费用本可以用于资助更多的实验)。
- 缺乏测量不变性:智商实验中“测量不变性”的问题听起来可能非常深奥,像是统计上的吹毛求疵,但它们归结为一个问题:测试得分的提高是_智力_的提高,还是仅仅可以通过在某个更专业的技能(如英语词汇)的子测试上的提高来解释?智力的提高远比某些特定测试的改进更有价值,如果是后者,那么实验发现的是_一个_真实的因果效应,但这个效应是愚人金。
- 混淆测量变量与潜变量:在讨论潜变量测量时,问题可能关键取决于_用途_。
- 一个例子是将 SAT 分数与大学 GPA 相关联:你是一位个体差异心理学家,还是一所大学的招生办公室?前者可能希望尽可能修正测量误差,以探究潜在的心理学机制;后者则是在履行职责,必须使用他们实际拥有的申请学生的原始分数,而不是他们希望拥有但永远无法得到的假设的真实分数。
- 或者假设有人将一个嘈杂的智商测试与一个高质量的人格测试进行比较(没有考虑并校正两者不同的测量误差),发现后者更能预测某些生活结果;这是否意味着“人格比智力更重要”于该性状?嗯,这取决于用途。如果一个人在就潜变量提出理论论证,这是一个严重的谬误,校正测量误差可能会完全颠倒结论并显示相反的结果;但如果一个人正在研究筛选(用于工业/组织心理学),那么哪个潜变量是更好的预测因子就无关紧要了,因为测试就是它们本身的样子——除非,反过来说,一个人正在考虑引入一个更好但更昂贵的智商测试,在这种情况下,潜变量_确实_很重要,因为,取决于潜变量(而不是粗略的测量变量)的重要性,更好测量带来的潜在改进可能足以证明使用更好测试的合理性……
- 或者考虑遗传力估计,比如来自 GCTA 的 SNP 遗传力估计。对于一个性状测量,GCTA 估计值(比如说 25%)可以解释为对同一次测量的 GWAS 的上限;知道这一点很有用,但这与 GWAS 的上限,或某种意义上的真实、潜在、无误差测量的_变量_的“遗传影响”不是一回事。大多数这样的 GCTA 使用的测量都有很大的测量误差,如果你校正了测量误差,真实的 GCTA 可能要高得多——例如,智商 GCTA 通常约为 25%,但大多数数据集为了数量牺牲了质量,使用了较差的智商测试,校正之后,真实的 GCTA 接近 50%,这有很大的不同。哪个数字是“正确”的?嗯,如果你仅仅是想了解基于那个特定测量数据集的 GWAS 能有多好以及你的统计功效如何,那么前者是正确的解释,因为它确定了你的上限,你需要更好的方法或测量才能超越它;但如果你试图对一个性状_本身_提出主张(正如许多人所做的那样!),那么潜变量才是相关的,只谈论测量变量具有高度误导性,并可能导致完全错误的结论(尤其是在比较具有不同测量误差的数据集时)。
- 缺乏盲法带来了类似的问题:它的缺失意味着被估计的效应不一定是我们想要估计的那个效应——但这取决于具体情况。心理学研究通常使用的测量方法允许一定程度的努力或控制,而研究兴趣所在的效应通常很小(比如双重 n-back 据称能提高几点智商),以至于稍微努力一点就可能夸大它们;另一方面,一项测量全因死亡率的癌症药物医学实验,如果有效,可以在生存率上产生巨大差异,癌症不关心患者是否乐观,研究人员也很难巧妙地歪曲收集到的像_全因_死亡率这样的数据(因为患者要么死了,要么没有)。 这个定义并非万能药,因为通常可能不清楚下游有哪些决策,更不用说一项批评能在多大程度上量化地影响它了。但它为理解哪些批评是或应该是重要的(元分析对于确定诸如特定缺陷导致的平均效应大小偏差等问题特别有用),哪些是可疑的或吹毛求疵的,并且是你牵强附会想出任何批评的迹象,提供了一个清晰的起点;如果你不能至少有些合理地解释一项批评(或批评的组合)如何可能导致截然相反的结论或行动,也许最好还是将它们排除在外。
外部链接
- “我们如何知道不去想什么”, Phillips2019
- “我们的思想有什么问题?新实证主义信条”, Stove1991
- “美国创新结构的变化:对经济增长的一些警示”, Arora2020
- 专业知识的恐怖谷:国家视角 (Seeing Like a State), 医学生综合征, “为什么一知半解是危险的事情”
- “应用概率与统计的因果基础”, Greenland2020
- 讨论: HN (Hacker News): 1, 2, 3附录 ========================================================================================= 统计学教学
“请你告诉我,我应该从这里往哪条路走?”“这在很大程度上取决于你想去哪里,”猫说。“我不太在乎去哪里——”爱丽丝说。“那么你走哪条路都没关系,”猫说。“——只要我能到某个地方就行”,爱丽丝补充解释道。“哦,你肯定能到那儿的”,猫说,“只要你走得足够远。”《爱丽丝梦游仙境》,第六章
如果决策论是终极标准,为什么人们很容易上完统计学入门课(Statistics 101)或读完一本统计学教科书后,会产生这样一种态度:统计学只不过是一堆花招,由分析师随心所欲地应用,遵循着没有明文规定的规则,对于外行来说深不可测,只能困惑地听着这个或那个概率吹笛人?(一个人使用 t 检验,除非他使用 Wilcoxon 检验,但当然,有时 p 值必须进行多重校正,除非不校正也没关系,因为你是将其作为主要分析的一部分,或者是像 ANOVA 这样的过程的一个组成部分——不要与 ANCOVA、MANCOVA 或线性模型混淆,后者可能实际上是一个广义线性模型,并根据情况使用聚类标准误……)
一个问题是,该领域非常不喜欢以任何可用的统一范式来呈现它。因为这些范式并未被普遍接受,所以态度似乎是_不应_教授任何范式;然而,拒绝做出选择本身就是一种选择,而最终被教授的是统计学即“大杂烩”的范式。正如通常所教授或讨论的那样,统计学被视为一堆技巧、p 值和针对特定问题的算法。但是,有一些范式是_可以_教授的。
一个简单而可取的改变是,放弃所有那些名目繁多的“检验”,并将它们重塑为线性模型的微小变体,其中一些只是因为足够常见而被命名为捷径——这才是它们的真实面目,并解释了其底层逻辑。
另一个可取的改变是,明确统计学在_决策论_中的基础。大约在 1940 年代,在亚伯拉罕·瓦尔德 (Abraham Wald) 的领导下,并借鉴了费雪和司徒顿的思想,统计学向决策论解释发生了一次巨大的范式转变,所有这些费雪式的小玩意都可以被理解、辩护和批评为在特定损失函数下最小化损失。为什么充分统计量会以它们的方式工作——它们对什么目的或“统计量”是充分的?所以,均值是估计参数的好方法(而不是众数、中位数或可以发明的无数其他单变量统计量),不是因为那个特定的函数是在西奈山上传下来的,而是因为它在诸如具有平方误差损失(因为更大的误差对你的伤害更大)等条件下,很好地最小化了你的损失;如果这些条件不成立,_那_就是为什么,比如说,中位数更好,并且你可以精确地说出它好多少以及何时你会回到均值(而不是关于标准差或检验正态性的任意 p 值阈值的经验法则)。
如果你简单地问它们将如何影响决策制定,元科学中的许多问题会变得更加透明(见本文其余部分)。
改善通常杂乱无章的统计学教育的第三种方法是贝叶斯主义。贝叶斯主义意味着你可以对许多问题简单地“转动曲柄”:定义一个模型、你的先验,然后转动 MCMC 曲柄,而不需要所有那些花哨的针对特定问题的推导和特殊情况。你不再需要面对那些从天而降的神秘分布、公式、检验和似然,而是理解你只是在建立方程(甚至只是编写一个程序),这些方程以足够形式化的方式反映了你认为某事物如何运作,以便你可以将数据输入其中,看看先验如何更新为后验。然后,分布和似然就不再是从天而降,而是务实的选择:你的 MCMC 库中实现了哪些特定的数学工具,哪些与你认为问题如何运作的方式匹配良好,同时又不太令人困惑或难以使用或计算效率低下?
因果建模是统一教育范式的第四个好例子:在流行病学等领域,存在着无穷无尽的偏见和问题动物园,看起来像一团乱麻,你只需要记住它们,但如果你画出一个因果图(DAG)来表示事情可能如何运作,它们都可以简化为直接的问题(例如,这些偏见中的大多数只是对撞偏见(collider bias),只是发生在某个特定变量上并被赋予了一个花哨的名字)。
在没有明确使用这些范式的情况下,发生的是对它们的隐式使用。统计学家或分析师在应用那套花招时所依赖的许多“经验”,实际上是从经验和耳濡目染中学到的隐藏理论,用于在使用表面上的花招时达到正确的结果:分析师知道他_在这里_应该使用中位数,因为他心中对下游实验有一个模糊定义的损失,并且他知道数据有时会出现异常值,这些异常值在过去搞砸了实验,所以均值是一个糟糕的选择,他应该使用“稳健统计学”;或者他从经验中知道大多数变量是无关紧要的,所以通过巧妙地选择 lasso 回归 而不是常规的 OLS 回归 来实现收缩(shrinkage)会很好,如果有人问起,就含糊地谈论“正则化”;或者他对某个群体的注册如何成为一个对撞因子有一个特定的因果模型,所以他知道要问关于“辛普森悖论”。因此,在专家手中,这套花招是有效的,即使新手感到困惑,并想知道专家是如何,看似从他们的“后口袋”里,掏出这个或那个花招的。
教师们不喜欢这样,因为他们不想为贝叶斯主义之类的哲学辩护,他们自己通常首先就没有接受过这些方面的培训,而且教授它们既太容易(概念是通用的、直接的,可以是一句话的事)又太难(将它们付诸实践并实际计算任何东西——写下贝叶斯公式很容易,但实际计算一个真实的后验,更不用说在一个决策树上最大化,就不那么容易了)。
当然,可以对每种范式提出很多批评——至少可以说,没有一种是普遍认同的——但我认为,用那些有原则的方法来教导人们,然后再批评它们,通常比用完全没有原则的方式来教导人们要好。
- 据我所知,主要有两类:报告检查清单和质量评估检查清单(此外还有专业团体发布的指南/建议,如 APA(美国心理学会) 基于 JARS 的手册 或 AERA(美国教育研究协会) 的标准)。 一些报告检查清单:
- 正如 Jackson 在一篇类似书籍的评论中指出的那样,用来反对遗传力或智商的论点体现了糟糕的研究批判,它们让完美成为更好的敌人,并选择性地应用对严谨性的要求:
毫无疑问,在这里,就像许多依赖实地研究的领域一样,对无关变量的精确控制远非完美。例如,在分离双胞胎的研究中,研究者必须承认,将双胞胎对随机分配到分离的寄养家庭的理想不太可能完全实现,很难找到在所有变量上都完美匹配的比较组或对照组,等等。除非完全放弃社会科学中的实地数据,否则别无选择,只能采用变异方法,试图权衡公认有缺陷的数据,通过证据的优势来识别对假设的支持。大多数这样做的人都发现了对智商遗传力的支持。卡明 (Kamin) 则只看到了证据中的缺陷……就现有数据而言,如果作者在评估此类处理没有差异的原假设时同样热衷,他将很难不拒绝它。
- 一个结果的不可重复性使原始结果陷入一个尴尬的三难困境:要么原始结果是虚假的(这是先验最可能的情况),要么重复者搞错了或运气不好(这很困难,因为大多数重复研究功效充足且遵循原始研究,所以——一个人的肯定前件是另一个人的否定后件——更容易论证是_原始_结果运气不好),要么研究主张是如此脆弱和特定于情境,以至于不可重复性只是“异质性”(但那样的话,如果它在其他任何地方是否存在都像抛硬币一样,为什么任何人应该在实质意义上相信这个结果,或据此采取行动呢?)。
- 引自 Pearson1939。
- 有趣的是,中世纪“概率”的起源本身就是基于决策的,因为它关注的是相信什么和根据什么采取行动在_道德_上是正确的,而概率论的数学根源也是实用的,基于赌博。拉普拉斯当然在他早期的贝叶斯主义中采取了类似的观点(例如,拉普拉斯关于证人证词的论述或估计土星质量)。是后来的统计思想家,如布尔或费雪,试图清除实用主义解释,转而支持更纯粹的定义,如极限频率。
- 这通常不是事实,这也是为什么像 Diederik Stapel 这样的造假者可以通过寻找“好得令人难以置信”的结果集、过度取整或过于平滑的数字,或者有时甚至只是算术上不正确的数字来被发现!(Stroebe2019 顺便指出,虽然 Stapel 的单个效应看起来对其他研究者来说是合理的,但总的来说它们太大了,这在进行元分析时导致了异常——欧洲的,而非美国的,启动效应 (priming) 研究的平均效应奇怪地更大。)
- 尽管形式上可能不正确,但每当我费力地正确处理序数变量时,通常只是微调了系数和标准误,并没有实际_改变_任何东西。知道了这一点,如果我批评任何同样做法的研究,除非我有充分的理由(比如重新分析了数据并且——这一次——得到了结果的重大改变),否则就是不诚实的。反向链接
- 作者:KAI
- 链接:https://blog.985864.xyz/learning/statistical-decision-making
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。