图书馆
/
P(y|do(x))

为什么

关于因果关系的新科学

G
基因
S
吸烟
T
焦油
C
癌症

图 1.1:一个因果图

P(Y | do(X)) = P(Y | X)
y = f(x, u)
引言

为什么因果关系重要

思维方式的革命

几个世纪以来,科学一直痴迷于相关性。我们观察模式,测量关系,建立预测模型。但预测不等于理解。

由朱迪亚·珀尔领导的因果革命,给了我们一种新语言——一个数学框架——来提出和回答关于因果关系的问题。这是知道'吸烟与癌症相关'和知道'吸烟导致癌症'之间的区别。

这不仅仅是学术理论。它改变了我们进行医学、经济学、社会科学和人工智能的方式。这是关于'为什么'的科学。

P(y|x)
相关
观察
P(y|do(x))
干预
行动
P(y_x|x',y')
反事实
想象
第 01 章

相关性 ≠ 因果性

科学中最危险的混淆

因果推理中最基本的教训:相关性不等于因果性。两个变量可以相关,但一个并不导致另一个。当第三个变量——混淆变量——同时影响两者时,就会出现这种情况。理解这一区别是走向因果思维的第一步。

错误:冰淇淋 → 溺水X冰淇淋Y溺水

冰淇淋与溺水

观察:冰淇淋销量与溺水死亡相关。 错误结论:冰淇淋导致溺水。

因果阶梯

要理解世界,我们必须攀登从单纯观察到干预,最后到想象的阶梯。

第一层

观察 (关联)

观察与模式匹配。大多数动物和当前的 AI 都停留在这里。它们知道症状与疾病有关,但不知道为什么。

P(y|x)
猫头鹰
预测老鼠位置
第二层

干预 (干预)

通过干预改变现实。如果我们强行改变变量——比如吃下一片阿司匹林——会发生什么?干预会打破相关性,显露因果。

P(y|do(x))
工具
改变世界
第三层

想象 (反事实)

思考平行世界。如果我当初没有吸烟?我还会得癌症吗?反事实推理需要对世界的模型。

P(y_x|x',y')
为什么?
人的问题
第 02 章

辛普森悖论

当汇总数据说谎时

辛普森悖论是一种统计现象,当数据被分组时出现某种趋势,但当这些组被合并时,趋势消失或反转。这个悖论说明了为什么我们不能仅仅依赖汇总数据——我们需要理解潜在的因果结构。

当你观察整个人群时,一种治疗方法可能看起来有益,但当你按子组分解时,它可能是有害的。这就是为什么我们需要因果图。

治疗组

干预
总体成功率60.0%
n=60/100

对照组

基线
总体成功率50.0%
n=50/100

看上去治疗更好(60% vs 50%)。这是忽视混淆变量的错觉。

在这个例子中,一种医疗方法看起来总体成功率为60%,而对照组为50%。然而,当我们按性别分离数据时,我们发现这种方法实际上对男性和女性的效果都比对照组差。悖论的发生是因为更多男性(对治疗反应较差)被分配到治疗组。这个隐藏的混淆变量——性别分布——创造了有效性的假象。

Experiment No. 1

蒙提霍尔悖论

让我们通过实验来验证直觉。这里有三扇门。

一扇门后是跑车,另外两扇后是山羊。请做出你的初步假设(选择一扇门)。

累计数据
换门策略
0%
0/0 次胜利
坚持策略
0%
0/0 次胜利
选择
选择
选择
Chapter 03

AI 的未来

真正的智能需要能够问'为什么?'并想象'如果……会怎样?'。当前的 AI 可以识别模式,但无法理解因果关系。当机器能够进行因果推理时,下一个突破将会到来。

当前的人工智能系统主要在因果阶梯的第一层运行。它们擅长模式识别和预测,但缺乏理解因果关系的能力。这限制了它们推理干预、适应新环境和回答'为什么'问题的能力。AI 的未来在于攀登到第三层——开发能够进行因果推理、想象反事实并真正理解世界的系统。

第一层

当下的 AI

深度学习 / 统计

  • ×在静态数据中识别模式
  • ×基于相关性做预测
  • ×无法理解“为什么”
  • ×分布变化时容易失效
P(y|x)
第三层

因果 AI

推理 / 想象

  • 理解因果关系
  • 能推理干预结果
  • 会问“如果……会怎样”
  • 对分布漂移更稳健
P(y|do(x))
获取源文件

为什么:关于因果关系的新科学

因果革命的新科学。解锁因果革命的秘密,学习如何从因果关系的角度思考世界。

在京东购买
为什么:关于因果关系的新科学
为什么 | Vibary