Skip to main content

辛普森悖论

当数据"说谎"时

📚 Introduction

📊 什么是辛普森悖论?

辛普森悖论是一种统计现象:在分组数据中观察到的趋势, 在合并数据后可能会消失甚至反转。

🎓 经典案例:大学录取

1973年,伯克利大学被指控性别歧视:总体数据显示男性录取率(44%)高于女性(35%)。 但仔细分析各系数据后发现,大多数系的女性录取率其实更高!

原因是:女性更多申请了竞争激烈(录取率低)的系, 而男性更多申请了容易录取的系。

⚠️ 为什么重要?

辛普森悖论提醒我们:数据可能会"说谎"。在做决策时, 必须考虑潜在的混淆变量。医学研究、政策制定、商业分析中都可能遇到这个陷阱。

🔑 Key Concepts

  • 混淆变量:影响结果但被忽略的因素(如申请的系)
  • 辛普森悖论:分组趋势与总体趋势相反
  • 解决方法:识别并控制混淆变量,进行分层分析

📊 交互式探索

某大学各系的录取数据

男性/治疗组
女性/对照组
📋 分组数据
系A(容易)
62.1%
82.4%
申请人数:男 825 108女性更高
系B(容易)
63.0%
68.0%
申请人数:男 560 25女性更高
系C(困难)
36.9%
34.1%
申请人数:男 325 593
系D(困难)
33.1%
34.9%
申请人数:男 417 375女性更高
📈 总体数据
合并所有组后
52.8%
39.9%
总申请:男 2127 1101男性更高
💡 解释

悖论的原因是"混淆变量"——女性更多申请了竞争激烈的组(录取率低), 而男性更多申请了容易的组。当我们忽略这个因素直接合并数据时, 就会得出误导性的结论。

📋 原始数据表

分组男性申请男性录取男性录取率女性申请女性录取女性录取率
系A(容易)82551262.1%1088982.4%
系B(容易)56035363.0%251768.0%
系C(困难)32512036.9%59320234.1%
系D(困难)41713833.1%37513134.9%