当前位置:网站首页>辛普森悖论
辛普森悖论
2022-08-01 23:31:00 【张春成】
辛普森悖论
在统计学中有一个挺神奇的悖论,称为辛普森悖论(Simple’s Paradox)。
简单来说,就是“在分组比较中都占优势的一方,在总评的时候有时反而是失势的一方。”
本文试图通过交互式的可视化方法,对它进行解释。
并且试图说明这种矛盾的情况并不是很偏僻的角落,甚至在合适的构造方法下,这种矛盾总能发生。
辛普森悖论
这是一个严肃的统计学问题,详细的论述可见
Simpson’s Paradox (Stanford Encyclopedia of Philosophy)[1]

可交互的图表解释
本文的代码可见我的 OBSERVABLE 代码本
Interactive Simpson's Paradox[2]

原始数据以 OA 和 AB 的形式获得。线段的斜率是指精度,比例等。因此,OB 的斜率是指整体精度。
通常情况下,我们希望斜率越大越好。
在红色三角存在的情况下,很容易获得斜率大于OA的“更好”的OC方法。之后,总是可以做CD与AB平行。这时不难发现,CD 的斜率与 AB 相等。
这时总可以找到比 CD 更好的 CE,只要满足 CE 大于 CD 即可。
这时,射线 CE 与 OB 总有交点,在 C 点与该交点之间的线段上任取一点 O‘,这显然就是一个比OB更糟糕的OO'。
但是考虑到 OO’ 是由 OC 和 CE 生成的,然而从斜率来讲,
OC 优于 OA CE 优于 AB 但 OO’ 劣于 OB
这就是辛普森悖论。
有意思的是,我前面的推导是从红色三角形 OAB 开始,只要这个三角形存在,就一定能够推出悖论的存在区间 OCO’。
也就是说,无论分组比较的分组情况如何,我们总能“生成”一组新的数据,来“导致”悖论的发生。
这就说明辛普森悖论并不是某个犄角旮旯的特殊情况,而是只要有分组比较,就可能出现的“一般情况”。
参考资料
Simpson’s Paradox (Stanford Encyclopedia of Philosophy): https://plato.stanford.edu/entries/paradox-simpson/#:~:text=Simpson%E2%80%99s%20Paradox%20is%20a%20statistical%20phenomenon%20where%20an,independent%20or%20even%20negatively%20associated%20in%20all%20subpopulations.
[2]Interactive Simpson's Paradox: https://observablehq.com/@listenzcc/interactive-simpsons-paradox
边栏推荐
猜你喜欢
chrome copies the base64 data of an image
cmd指令
Deep Learning Fundamentals - Numpy-based Recurrent Neural Network (RNN) implementation and backpropagation training
Building a cloud-native DevOps environment
C#大型互联网平台管理框架源码:基于ASP.NET MVC+EF6+Bootstrap开发,支持多数据库
Flink学习第三天——一文带你了解什么是Flink流?
系统可用性:SRE口中的3个9,4个9...到底是个什么东西?
从0到1:图文投票小程序设计与研发笔记
cmd command
Making a Simple 3D Renderer
随机推荐
Avoid , ,
, and tagsMaking a Simple 3D Renderer
[C language advanced] file operation (2)
Chapter 19 Tips and Traps: Common Goofs for Novices
problem solved
PostgreSQL Basics--Common Commands
数据机构---第五章树与二叉树---二叉树的概念---应用题
Data Organization --- Chapter 5 Trees and Binary Trees --- The Concept of Binary Trees --- Application Questions
检查点是否在矩形内
[LeetCode304 Weekly Competition] Two questions about the base ring tree 6134. Find the closest node to the given two nodes, 6135. The longest cycle in the graph
基于JAX的激活函数、softmax函数和交叉熵函数
数据库表设计规则
从0到100:招生报名小程序开发笔记
Interpretation of the paper (GSAT) "Interpretable and Generalizable Graph Learning via Stochastic Attention Mechanism"
Dynamic Scene Deblurring with Parameter Selective Sharing and Nested Skip Connections
斜堆、、、
CF1705D Mark and Lightbulbs
qt-faststart installation and use
chrome复制一张图片的base64数据
Deep Learning Fundamentals - Numpy-based Recurrent Neural Network (RNN) implementation and backpropagation training