当前位置:网站首页>PSM总结
PSM总结
2022-06-28 01:07:00 【Coco-Lele】
背景
在评估实验效果时,在非随机性实验中,相关性不等于因果性,存在各种偏差。
例1:进行一项调查,调查内容是去不去医院是否会影响个人健康,因此向医院里的各类人员发放问卷并得出其健康状况,最后发现去医院不利于个人健康。
样本选择偏差:sample selection bias
例2:评估一项污染防治政策的政策效果,选择期初污染程度基本一致的地区作为样本,并根据各地区意愿决定其是否实施该项政策,3年后政策实施地的污染指标明显低于未实施该政策的地区,结论是这项政策有效。
自选择偏差:self-selection bias:各地区是否实施政策纳入了干扰项中,与解释变量相关,造成内生性
实验的ATT与ATE
ATT:average treatment effect on the treated
随机试验:找到接受实验个体的“平行时空”

现实中难以找到“平行时空”,只能计算接受实验个体和未接受实验个体的差值
ATE:average treatment effect

要让选择偏差为0 -> 条件期望等于期望,D与y之间独立 -> 控制影响D的因素,使个体是否参与实验是“随机”的
D与y之间独立:CIA假设
总结
- 估计ATT最理想的方法是找到参与实验的个体在平行时空的自己,并假设平行时空的自己没有参与实验,最后作差得出最纯粹的ATT,但是找到平行时空的自己不现实;
- 退而求其次,我们可以使用随机分组的处理组与控制组,作差得到ATT,但现实中个体是否参与实验的选择不随机;
- 为了得到随机化分组的样本,找出影响个体是否参与实验的因素,控制两组间因素的取值相等,最后利用处理后的分组样本作差得到ATT。
PSM
本质:将参与实验可能性近似的个体配对,使实验近似为随机试验。
关键:找到影响个体参与实验的变量。
存在问题:变量不可观测;变量可观测,但是高维,造成数据稀疏 -> 使用倾向性得分,相当于把多个混淆变量降维为一个分数。
倾向性得分计算
因变量:是否接受实验 D = 1 D=1 D=1
自变量:同时影响D与y的特征(CIA假设成立)
模型:二分类模型
正样本、负样本选择:treatment是否是主动选择?
负样本预测出的prediction_score很高难道不是因为我们的模型预测不准?
——共支撑假设
配对方式
最近邻匹配:选取得分最接近的;分为有放回和无放回。
PSM 与 DID
在时刻t施加影响,计算影响效果的两种思路:
- 被影响的人t后表现 - 未被影响的人t后表现
- 被影响的人t后表现 - 被影响的人t前表现
PSM消除第一种思路中人群之间的差异,和DID结合,相当于引入了第二种时间维度,进一步使人群匹配,二者结合使用效果更好。
参考文献
边栏推荐
- 「大道智创」获千万级preA+轮融资,推出科技消费机器人
- How to realize red, green and yellow traffic lights in ros+gazebo?
- 【历史上的今天】6 月 18 日:京东诞生;网店平台 Etsy 成立;Facebook 发布 Libra 白皮书
- 数据清洗工具flashtext,效率直接提升了几十倍数
- 【历史上的今天】5 月 31 日:Amiga 之父诞生;BASIC 语言的共同开发者出生;黑莓 BBM 停运
- I forgot my cell phone today
- Interpretation of the source code of scheduledthreadpoolexecutor (II)
- 被通知裁员后拿到5个offer
- 云原生(三十) | Kubernetes篇之应用商店-Helm
- SQL reported an unusual error, which confused the new interns
猜你喜欢

迪赛智慧数——柱状图(折柱混合图):2021年毕业季租房价格和房租收入比

ROS+Gazebo中红绿黄交通灯如何实现?

How to enable multi language text suggestions? Win11 method to open multilingual text suggestions

如何判断线程池已经执行完所有任务了?

【历史上的今天】6 月 7 日:Kubernetes 开源版本发布;《魔兽世界》登陆中国;分组交换网络发明者出生

【历史上的今天】6 月 10 日:Apple II 问世;微软收购 GECAD;发明“软件工程”一词的科技先驱出生

win11如何添加打印机和扫描仪?win11添加打印机和扫描仪的设置

JDBC与MySQL数据库

Architecture high reliability application knowledge map ----- microservice architecture map

Exploration on the construction path of real-time digital warehouse integrating digital intelligence learning and streaming batch
随机推荐
如何系统学习LabVIEW?
MySQL collection, here are all the contents you want
Opencv——霍夫变换以及遇到的一些问题
Win11无法使用动态壁纸怎么办?Win11用不了动态壁纸的解决方法
[today in history] June 11: the co inventor of Monte Carlo method was born; Google launched Google Earth; Google acquires waze
毕业总结
【模糊神经网络】基于matlab的模糊神经网络仿真
Practice of low code DSL in data warehouse
Redis~geospatial (geospatial), hyperloglog (cardinality Statistics)
[today in history] June 7: kubernetes open source version was released; Worldofwarcraft landed in China; Birth of the inventor of packet switching network
Skills in schematic merging
【历史上的今天】6 月 11 日:蒙特卡罗方法的共同发明者出生;谷歌推出 Google 地球;谷歌收购 Waze
ROS+Gazebo中红绿黄交通灯如何实现?
字节跳动面试官:一张图片占据的内存大小是如何计算
Win11不能拖拽图片到任务栏软件上快速打开怎么办
第一次使用gcc和makefile编写c程序
Stm32f1 interrupt introduction
Livedata interview question bank and answers -- 7 consecutive questions for livedata interview~
被通知裁员后拿到5个offer
How technicians become experts in technical field