当前位置:网站首页>辛普森悖论
辛普森悖论
2022-08-01 23:31:00 【张春成】
辛普森悖论
在统计学中有一个挺神奇的悖论,称为辛普森悖论(Simple’s Paradox)。
简单来说,就是“在分组比较中都占优势的一方,在总评的时候有时反而是失势的一方。”
本文试图通过交互式的可视化方法,对它进行解释。
并且试图说明这种矛盾的情况并不是很偏僻的角落,甚至在合适的构造方法下,这种矛盾总能发生。
辛普森悖论
这是一个严肃的统计学问题,详细的论述可见
Simpson’s Paradox (Stanford Encyclopedia of Philosophy)[1]

可交互的图表解释
本文的代码可见我的 OBSERVABLE 代码本
Interactive Simpson's Paradox[2]

原始数据以 OA 和 AB 的形式获得。线段的斜率是指精度,比例等。因此,OB 的斜率是指整体精度。
通常情况下,我们希望斜率越大越好。
在红色三角存在的情况下,很容易获得斜率大于OA的“更好”的OC方法。之后,总是可以做CD与AB平行。这时不难发现,CD 的斜率与 AB 相等。
这时总可以找到比 CD 更好的 CE,只要满足 CE 大于 CD 即可。
这时,射线 CE 与 OB 总有交点,在 C 点与该交点之间的线段上任取一点 O‘,这显然就是一个比OB更糟糕的OO'。
但是考虑到 OO’ 是由 OC 和 CE 生成的,然而从斜率来讲,
OC 优于 OA CE 优于 AB 但 OO’ 劣于 OB
这就是辛普森悖论。
有意思的是,我前面的推导是从红色三角形 OAB 开始,只要这个三角形存在,就一定能够推出悖论的存在区间 OCO’。
也就是说,无论分组比较的分组情况如何,我们总能“生成”一组新的数据,来“导致”悖论的发生。
这就说明辛普森悖论并不是某个犄角旮旯的特殊情况,而是只要有分组比较,就可能出现的“一般情况”。
参考资料
Simpson’s Paradox (Stanford Encyclopedia of Philosophy): https://plato.stanford.edu/entries/paradox-simpson/#:~:text=Simpson%E2%80%99s%20Paradox%20is%20a%20statistical%20phenomenon%20where%20an,independent%20or%20even%20negatively%20associated%20in%20all%20subpopulations.
[2]Interactive Simpson's Paradox: https://observablehq.com/@listenzcc/interactive-simpsons-paradox
边栏推荐
猜你喜欢

sys_kill系统调用

From 0 to 100: Notes on the Development of Enrollment Registration Mini Programs
![Thesis understanding [RL - Exp Replay] - Experience Replay with Likelihood-free Importance Weights](/img/f1/9824f32dd4fe4b3e94af3f945b1801.png)
Thesis understanding [RL - Exp Replay] - Experience Replay with Likelihood-free Importance Weights

The third chapter of the imitation cattle network project: develop the core functions of the community (detailed steps and ideas)

DRF generating serialization class code

Access the selected node in the console

仿牛客网项目第三章:开发社区核心功能(详细步骤和思路)

还在纠结报表工具的选型么?来看看这个

chrome复制一张图片的base64数据

论文理解【RL - Exp Replay】—— Experience Replay with Likelihood-free Importance Weights
随机推荐
Special characters & escapes in bat
The third chapter of the imitation cattle network project: develop the core functions of the community (detailed steps and ideas)
y84.第四章 Prometheus大厂监控体系及实战 -- prometheus告警机制进阶(十五)
The monthly salary of the test post is 5-9k, how to increase the salary to 25k?
Always use "noopener" or "noreferrer" for links that open in a new tab
numpy.unique
6132. All the elements in the array is equal to zero - quick sort method
隔离和降级
npm npm
excel change cell size
Flink学习第四天——完成第一个Flink 流批一体案例
excel vertical to horizontal
测试岗月薪5-9k,如何实现涨薪到25k?
云原生DevOps环境搭建
论文解读(GSAT)《Interpretable and Generalizable Graph Learning via Stochastic Attention Mechanism》
System availability: 3 9s, 4 9s in SRE's mouth... What is it?
SQL Server (design database--stored procedure--trigger)
Check if point is inside rectangle
When using DocumentFragments add a large number of elements
LocalDateTime转为Date类型