当前位置:网站首页>辛普森悖论
辛普森悖论
2022-08-01 23:31:00 【张春成】
辛普森悖论
在统计学中有一个挺神奇的悖论,称为辛普森悖论(Simple’s Paradox)。
简单来说,就是“在分组比较中都占优势的一方,在总评的时候有时反而是失势的一方。”
本文试图通过交互式的可视化方法,对它进行解释。
并且试图说明这种矛盾的情况并不是很偏僻的角落,甚至在合适的构造方法下,这种矛盾总能发生。
辛普森悖论
这是一个严肃的统计学问题,详细的论述可见
Simpson’s Paradox (Stanford Encyclopedia of Philosophy)[1]

可交互的图表解释
本文的代码可见我的 OBSERVABLE 代码本
Interactive Simpson's Paradox[2]

原始数据以 OA 和 AB 的形式获得。线段的斜率是指精度,比例等。因此,OB 的斜率是指整体精度。
通常情况下,我们希望斜率越大越好。
在红色三角存在的情况下,很容易获得斜率大于OA的“更好”的OC方法。之后,总是可以做CD与AB平行。这时不难发现,CD 的斜率与 AB 相等。
这时总可以找到比 CD 更好的 CE,只要满足 CE 大于 CD 即可。
这时,射线 CE 与 OB 总有交点,在 C 点与该交点之间的线段上任取一点 O‘,这显然就是一个比OB更糟糕的OO'。
但是考虑到 OO’ 是由 OC 和 CE 生成的,然而从斜率来讲,
OC 优于 OA CE 优于 AB 但 OO’ 劣于 OB
这就是辛普森悖论。
有意思的是,我前面的推导是从红色三角形 OAB 开始,只要这个三角形存在,就一定能够推出悖论的存在区间 OCO’。
也就是说,无论分组比较的分组情况如何,我们总能“生成”一组新的数据,来“导致”悖论的发生。
这就说明辛普森悖论并不是某个犄角旮旯的特殊情况,而是只要有分组比较,就可能出现的“一般情况”。
参考资料
Simpson’s Paradox (Stanford Encyclopedia of Philosophy): https://plato.stanford.edu/entries/paradox-simpson/#:~:text=Simpson%E2%80%99s%20Paradox%20is%20a%20statistical%20phenomenon%20where%20an,independent%20or%20even%20negatively%20associated%20in%20all%20subpopulations.
[2]Interactive Simpson's Paradox: https://observablehq.com/@listenzcc/interactive-simpsons-paradox
边栏推荐
- Loading configuration of Nacos configuration center
- C语言——分支语句和循环语句
- YOLO等目标检测模型的非极大值抑制NMS和评价指标(Acc, Precision, Recall, AP, mAP, RoI)、YOLOv5中[email protected]与
- SQL Server (design database--stored procedure--trigger)
- Chapter 11 Working with Dates and Times
- 切面打印调取的方法
- PostgreSQL Basics--Common Commands
- 从0到1:图文投票小程序设计与研发笔记
- From 0 to 1: Design and R&D Notes of Graphic Voting Mini Program
- Avoid hidden text when loading fonts
猜你喜欢

【参营经历贴】2022网安夏令营

How do programmers solve online problems gracefully?

程序员如何优雅地解决线上问题?

chrome copies the base64 data of an image

From 0 to 100: Notes on the Development of Enrollment Registration Mini Programs

Leetcode 129求根节点到叶节点数字之和、104二叉树的最大深度、8字符串转换整数(atoi)、82删除排序链表中的重复元素II、204二分查找、94二叉树的中序遍历、144二叉树的前序遍历

C language - branch statement and loop statement
[email protected]与YOLO等目标检测模型的非极大值抑制NMS和评价指标(Acc, Precision, Recall, AP, mAP, RoI)、YOLOv5中[email protected]与

隔离和降级

The monthly salary of the test post is 5-9k, how to increase the salary to 25k?
随机推荐
论文解读(GSAT)《Interpretable and Generalizable Graph Learning via Stochastic Attention Mechanism》
excel split text into different rows
Deep Learning Fundamentals - Numpy-based Recurrent Neural Network (RNN) implementation and backpropagation training
计算两点之间的距离
从0到1:图文投票小程序设计与研发笔记
问题解决方式了
E - Integer Sequence Fair
PDF转Word有那么难吗?做一个文件转换器,都解决了
excel clear format
chrome copies the base64 data of an image
Background project Express-Mysql-Vue3-TS-Pinia page layout-sidebar menu
npm npm
bat 之 特殊字符&转义
npm npm
Nacos配置中心之加载配置
y84.第四章 Prometheus大厂监控体系及实战 -- prometheus告警机制进阶(十五)
DRF generating serialization class code
LocalDateTime转为Date类型
如何更好的理解的和做好工作?
欧拉路径与欧拉回路