为什么
关于因果关系的新科学
图 1.1:一个因果图
为什么因果关系重要
思维方式的革命
几个世纪以来,科学一直痴迷于相关性。我们观察模式,测量关系,建立预测模型。但预测不等于理解。
由朱迪亚·珀尔领导的因果革命,给了我们一种新语言——一个数学框架——来提出和回答关于因果关系的问题。这是知道'吸烟与癌症相关'和知道'吸烟导致癌症'之间的区别。
这不仅仅是学术理论。它改变了我们进行医学、经济学、社会科学和人工智能的方式。这是关于'为什么'的科学。
相关性 ≠ 因果性
科学中最危险的混淆
因果推理中最基本的教训:相关性不等于因果性。两个变量可以相关,但一个并不导致另一个。当第三个变量——混淆变量——同时影响两者时,就会出现这种情况。理解这一区别是走向因果思维的第一步。
冰淇淋与溺水
观察:冰淇淋销量与溺水死亡相关。 错误结论:冰淇淋导致溺水。
因果阶梯
要理解世界,我们必须攀登从单纯观察到干预,最后到想象的阶梯。
观察 (关联)
观察与模式匹配。大多数动物和当前的 AI 都停留在这里。它们知道症状与疾病有关,但不知道为什么。
干预 (干预)
通过干预改变现实。如果我们强行改变变量——比如吃下一片阿司匹林——会发生什么?干预会打破相关性,显露因果。
想象 (反事实)
思考平行世界。如果我当初没有吸烟?我还会得癌症吗?反事实推理需要对世界的模型。
辛普森悖论
当汇总数据说谎时
辛普森悖论是一种统计现象,当数据被分组时出现某种趋势,但当这些组被合并时,趋势消失或反转。这个悖论说明了为什么我们不能仅仅依赖汇总数据——我们需要理解潜在的因果结构。
当你观察整个人群时,一种治疗方法可能看起来有益,但当你按子组分解时,它可能是有害的。这就是为什么我们需要因果图。
治疗组
干预对照组
基线“看上去治疗更好(60% vs 50%)。这是忽视混淆变量的错觉。”
在这个例子中,一种医疗方法看起来总体成功率为60%,而对照组为50%。然而,当我们按性别分离数据时,我们发现这种方法实际上对男性和女性的效果都比对照组差。悖论的发生是因为更多男性(对治疗反应较差)被分配到治疗组。这个隐藏的混淆变量——性别分布——创造了有效性的假象。
蒙提霍尔悖论
让我们通过实验来验证直觉。这里有三扇门。
一扇门后是跑车,另外两扇后是山羊。请做出你的初步假设(选择一扇门)。
AI 的未来
真正的智能需要能够问'为什么?'并想象'如果……会怎样?'。当前的 AI 可以识别模式,但无法理解因果关系。当机器能够进行因果推理时,下一个突破将会到来。
当前的人工智能系统主要在因果阶梯的第一层运行。它们擅长模式识别和预测,但缺乏理解因果关系的能力。这限制了它们推理干预、适应新环境和回答'为什么'问题的能力。AI 的未来在于攀登到第三层——开发能够进行因果推理、想象反事实并真正理解世界的系统。
当下的 AI
深度学习 / 统计
- ×在静态数据中识别模式
- ×基于相关性做预测
- ×无法理解“为什么”
- ×分布变化时容易失效
因果 AI
推理 / 想象
- ✓理解因果关系
- ✓能推理干预结果
- ✓会问“如果……会怎样”
- ✓对分布漂移更稳健
为什么:关于因果关系的新科学
因果革命的新科学。解锁因果革命的秘密,学习如何从因果关系的角度思考世界。
