辛普森悖论
当数据"说谎"时
📚 概念介绍
📊 什么是辛普森悖论?
辛普森悖论是一种统计现象:在分组数据中观察到的趋势, 在合并数据后可能会消失甚至反转。
🎓 经典案例:大学录取
1973年,伯克利大学被指控性别歧视:总体数据显示男性录取率(44%)高于女性(35%)。 但仔细分析各系数据后发现,大多数系的女性录取率其实更高!
原因是:女性更多申请了竞争激烈(录取率低)的系, 而男性更多申请了容易录取的系。
⚠️ 为什么重要?
辛普森悖论提醒我们:数据可能会"说谎"。在做决策时, 必须考虑潜在的混淆变量。医学研究、政策制定、商业分析中都可能遇到这个陷阱。
🔑 关键概念
- 混淆变量:影响结果但被忽略的因素(如申请的系)
- 辛普森悖论:分组趋势与总体趋势相反
- 解决方法:识别并控制混淆变量,进行分层分析
📊 交互式探索
某大学各系的录取数据
男性/治疗组
女性/对照组
📋 分组数据
系A(容易)
男
62.1%
女
82.4%
申请人数:男 825,女 108 ✓ 女性更高
系B(容易)
男
63.0%
女
68.0%
申请人数:男 560,女 25 ✓ 女性更高
系C(困难)
男
36.9%
女
34.1%
申请人数:男 325,女 593
系D(困难)
男
33.1%
女
34.9%
申请人数:男 417,女 375 ✓ 女性更高
📈 总体数据
合并所有组后
男
52.8%
女
39.9%
总申请:男 2127,女 1101 ✓ 男性更高
💡 解释
悖论的原因是"混淆变量"——女性更多申请了竞争激烈的组(录取率低), 而男性更多申请了容易的组。当我们忽略这个因素直接合并数据时, 就会得出误导性的结论。
📋 原始数据表
| 分组 | 男性申请 | 男性录取 | 男性录取率 | 女性申请 | 女性录取 | 女性录取率 |
|---|---|---|---|---|---|---|
| 系A(容易) | 825 | 512 | 62.1% | 108 | 89 | 82.4% |
| 系B(容易) | 560 | 353 | 63.0% | 25 | 17 | 68.0% |
| 系C(困难) | 325 | 120 | 36.9% | 593 | 202 | 34.1% |
| 系D(困难) | 417 | 138 | 33.1% | 375 | 131 | 34.9% |