当前位置:网站首页>辛普森悖论
辛普森悖论
2022-08-01 23:31:00 【张春成】
辛普森悖论
在统计学中有一个挺神奇的悖论,称为辛普森悖论(Simple’s Paradox)。
简单来说,就是“在分组比较中都占优势的一方,在总评的时候有时反而是失势的一方。”
本文试图通过交互式的可视化方法,对它进行解释。
并且试图说明这种矛盾的情况并不是很偏僻的角落,甚至在合适的构造方法下,这种矛盾总能发生。
辛普森悖论
这是一个严肃的统计学问题,详细的论述可见
Simpson’s Paradox (Stanford Encyclopedia of Philosophy)[1]

可交互的图表解释
本文的代码可见我的 OBSERVABLE 代码本
Interactive Simpson's Paradox[2]

原始数据以 OA 和 AB 的形式获得。线段的斜率是指精度,比例等。因此,OB 的斜率是指整体精度。
通常情况下,我们希望斜率越大越好。
在红色三角存在的情况下,很容易获得斜率大于OA的“更好”的OC方法。之后,总是可以做CD与AB平行。这时不难发现,CD 的斜率与 AB 相等。
这时总可以找到比 CD 更好的 CE,只要满足 CE 大于 CD 即可。
这时,射线 CE 与 OB 总有交点,在 C 点与该交点之间的线段上任取一点 O‘,这显然就是一个比OB更糟糕的OO'。
但是考虑到 OO’ 是由 OC 和 CE 生成的,然而从斜率来讲,
OC 优于 OA CE 优于 AB 但 OO’ 劣于 OB
这就是辛普森悖论。
有意思的是,我前面的推导是从红色三角形 OAB 开始,只要这个三角形存在,就一定能够推出悖论的存在区间 OCO’。
也就是说,无论分组比较的分组情况如何,我们总能“生成”一组新的数据,来“导致”悖论的发生。
这就说明辛普森悖论并不是某个犄角旮旯的特殊情况,而是只要有分组比较,就可能出现的“一般情况”。
参考资料
Simpson’s Paradox (Stanford Encyclopedia of Philosophy): https://plato.stanford.edu/entries/paradox-simpson/#:~:text=Simpson%E2%80%99s%20Paradox%20is%20a%20statistical%20phenomenon%20where%20an,independent%20or%20even%20negatively%20associated%20in%20all%20subpopulations.
[2]Interactive Simpson's Paradox: https://observablehq.com/@listenzcc/interactive-simpsons-paradox
边栏推荐
- Background project Express-Mysql-Vue3-TS-Pinia page layout-sidebar menu
- chrome复制一张图片的base64数据
- excel vertical to horizontal
- Chapter 11 Working with Dates and Times
- Additional Features for Scripting
- 简单3D渲染器的制作
- What is CICD excuse me
- Secondary Vocational Network Security Competition B7 Competition Deployment Process
- JAX-based activation function, softmax function and cross entropy function
- 6132. 使数组中所有元素都等于零-快速排序法
猜你喜欢
仿牛客网项目第三章:开发社区核心功能(详细步骤和思路)
Making a Simple 3D Renderer
[LeetCode304 Weekly Competition] Two questions about the base ring tree 6134. Find the closest node to the given two nodes, 6135. The longest cycle in the graph
研发团队数字化转型实践
y84. Chapter 4 Prometheus Factory Monitoring System and Actual Combat -- Advanced Prometheus Alarm Mechanism (15)
Deep Learning Fundamentals - Numpy-based Recurrent Neural Network (RNN) implementation and backpropagation training
[email protected]与
YOLO等目标检测模型的非极大值抑制NMS和评价指标(Acc, Precision, Recall, AP, mAP, RoI)、YOLOv5中[email protected]与
测试岗月薪5-9k,如何实现涨薪到25k?
伸展树的特性及实现
CAKE:一个用于多视图知识图谱补全的可扩展性常识感知框架
随机推荐
高效工作文档产出归类
chrome复制一张图片的base64数据
JAX-based activation function, softmax function and cross entropy function
excel vertical to horizontal
TCP 可靠吗?为什么?
Secondary Vocational Network Security Competition B7 Competition Deployment Process
Oracle 数据库设置为只读及读写
论文解读(GSAT)《Interpretable and Generalizable Graph Learning via Stochastic Attention Mechanism》
Is TCP reliable?Why?
CAKE:一个用于多视图知识图谱补全的可扩展性常识感知框架
When solving yolov5 training: "AssertionError: train: No labels in VOCData/dataSet_path/train.cache. Can not train"
excel edit a cell without double clicking
SQL Server(设计数据库--存储过程--触发器)
C language - branch statement and loop statement
还在纠结报表工具的选型么?来看看这个
Create virtual environments with virtualenv and Virtualenvwrapper virtual environment management tools
解决端口占用
Getting started with IDEA is enough to read this article
加载字体时避免隐藏文本
6134. Find the closest node to the given two nodes - force double hundred code