Robust Estimation of Mean in Partially Linear Model With Missing Responses
-
摘要:
为了提高估计的稳健性,基于协变量平衡倾向得分和增强的逆概率加权方法,得到了响应变量随机缺失下部分线性模型总体均值的稳健估计,证明了相应估计量具有渐近正态性,利用所得结果构造了总体均值的置信区间.
Abstract:To improve the robustness of an estimator, based on the covariate balancing propensity score and the augmented inverse probability weighted methods, a robust estimator of the population mean was obtained for the partially linear model, when the responses were missing at random. It is proved that the proposed estimator is asymptotically normal, and hence it can be applied to constructing the confidence region of the population mean.
-
部分线性模型是现代统计模型中一类非常重要的半参数模型. 由于它包含了线性模型和非参数模型的特点,因此自从该模型被Engle等 [ 1] 提出以来,便引起了众多学者的关注 [ 2- 5] ,其中Robinson [ 4] 利用最小二乘和核估计方法得到了部分线性模型中参数分量和非参数分量的估计量,并研究了参数分量估计的渐近正态性以及非参数分量估计的收敛速度. Xue等 [ 5] 利用经验似然方法研究了纵向数据下部分线性模型的估计问题,构造了模型中参数分量和非参数分量的经验似然置信域和置信区间.
在实际问题中,由于某种原因,经常会出现缺失数据. 如果只利用观测到的数据进行统计推断,得到的估计往往是有偏的. 对于缺失数据的研究,目前已有大量的文献 [ 6- 15] ,其中Wang等 [ 11] 以及Xue [ 12] 分别利用经验似然方法研究了响应变量缺失下线性模型的统计推断;Wang等 [ 13] 和Xue等 [ 14] 讨论了广义线性模型具有缺失数据的估计问题. 对于缺失数据下部分线性模型,目前也已有很多文献进行了研究 [ 16- 22] ,其中Wang等 [ 17] 利用逆概率加权借补的方法研究了响应变量随机缺失下部分线性模型中总体均值的估计问题,并得到了估计量的渐近正态性. Wang等 [ 18] 考虑了响应变量随机缺失下部分线性模型中参数分量和非参数分量的估计. Xue等 [ 21] 利用纠偏技术分别构造了参数分量、非参数分量以及总体均值的经验似然比统计量,并证明了它们渐近于标准卡方分布,由此得到了兴趣参数的置信域和置信区间.
在处理缺失数据时,最常用的方法有逆概率加权和增强的逆概率加权. 增强的逆概率加权又称为逆概率加权借补,其优点是能使得估计量具有双稳健性,即如果缺失概率模型和回归模型中至少有一个模型被正确指定,那么得到的估计量就是相合的. 稳健估计是缺失数据研究的重要课题之一,自从Robins等 [ 8] 提出增强的逆概率加权方法以来,已有许多文献讨论了估计的稳健性问题,如文献[23-26]等. Kang等 [ 26] 提出了几种构造双稳健估计量的方法,但同时也指出了当2个模型都被错误指定时,双稳健估计的效果会非常差.
为了克服双稳健估计量在缺失概率模型和回归模型都被错误指定时出现的问题,本文在缺失概率是一个参数模型的假设下,利用Imai等 [ 27] 提出的协变量平衡倾向得分的方法估计缺失概率中的未知参数,最后基于增强的逆概率加权思想得到了响应变量随机缺失下部分线性模型中总体均值的稳健估计,并证明了所得的估计具有渐近正态性, 从而可以利用所得结果构造总体均值的置信区间.
1 基于协变量平衡倾向得分的估计量
1.1 回归系数的估计
考虑部分线性模型
Y=X T β+g( U) +ε (1)
式中: β为 p×1维的未知参数向量; g(·)为一个未指定的函数; ε为模型误差,满足 E( ε|X, U) =0 . 协变量 X和 U可以完全观测,而响应变量 Y具有缺失,并且当指示变量 δ=1时, 表示 Y能观测, δ=0时,表示 Y缺失 . 本文假定 Y是随机缺失 [ 28] 的, 即
P( δ=1 |Y, X, U) =P( δ=1 |X, U) =π( X, U)
并且选择缺失机制为logistic模型:
π( X, U) =
式中 α≡( α 0, α 1,
设( X i , Y i , U i , δ i ), i=1,2,…, n是来自模型(1)的随机样本 . 由式(1)可知
δY=δX T β+δg( U) +δε (2)
给定 U=u, 对式(2)求条件期望可得E( δY|U=u) =E( δX T |U=u) β+E( δ|U=u) g( U), 从而可得
g( u) =g 2( u) -g 1( u) T β (3)
其中
g 1( u) =E( δX|U=u) /E( δ|U=u)
g 2( u) =E( δY|U=u) /E( δ|U=u)
由式(1)(3)可得
δ i [ Y i-g 2( U i )] =δ i [ X i-g 1( U i )] T β+δ iε i (4)
从而基于完全数据情况(complete case data),可得 β的最小二乘估计为
其中
式中 K(·)为一个Borel可测的核函数 . 由式(3)以及
1.2 缺失概率的估计
在缺失概率为参数模型时,如文献中经常用到的logistic模型,可以基于完全观测到的( Z i , δ i ), i=1,2,…, n,其中 Z i ≙( X i , U i ),利用极大似然方法得到未知参数 α的估计,即最大化对数似然函数
如果 π( Z, α)关于 α是二阶连续可导,那么最大化对数似然函数等价于
其中
S α ( Z i , δ i ) =
从而得到未知参数 α的极大似然估计量,进而可以利用逆概率加权等方法得到兴趣参数的估计 .
通常的极大似然估计方法简单易行,但是当缺失概率被错误指定时,基于 α的极大似然估计量的逆概率加权等方法得到的兴趣参数的估计量会有很大的偏差 . 为了克服这一问题并得到兴趣参数的稳健估计,本小节利用Imai等 [ 27] 在因果推断中提出的协变量平衡倾向得分的方法对 α进行估计,即令缺失概率 π( Z, α)满足协变量平衡条件
E[
式中
其中
w α ( Z i , δ i ) =
当
其中
权矩阵 W是半正定矩阵,一般地,取 W为单位矩阵或无偏估计函数向量的协方差矩阵的逆 . 利用两步估计方法,可以得到参数 α的GMM估计量 α,具体算法如下:
1) 通过最小化
2) 令W是( a ll' ) K×K 的逆矩阵,其中
a ll'=
通过最小化
另外,令
1.3 总体均值 μ的估计
本小节将基于前面得到的回归系数和缺失概率的估计,利用逆概率加权借补的方法对总体均值进行统计推断 . 记
基于协变量平衡倾向得分的逆概率加权借补,提出总体均值 μ的估计量为
虽然式(15)的形式与Wang等 [ 17] 以及Xue等 [ 21] 类似,但是基于协变量平衡倾向得分的逆概率加权借补方法得到的兴趣参数的估计量具有下面的优点:
1) 利用参数模型作为缺失机制避免了非参数估计中常常遇到的“维数灾祸”问题;
2) 即使当参数模型被错误指定,基于协变量平衡倾向得分的逆概率加权借补方法得到的兴趣参数的估计量也是稳健的;
3) 该方法比缺失数据中经常用到的双稳健估计方法更稳健 .
双稳健估计即缺失概率和回归模型至少有一个被正确指定时,得到的兴趣参数的估计都是相合的,但是当2个模型都被错误指定时,双稳健估计量的效果就会非常差,详见文献[26],而基于协变量平衡倾向得分的逆概率加权借补方法得到的估计量克服了这一问题 .将通过后面的模拟部分进行说明 .
2 渐近性质
本节将证明基于协变量平衡得分得到的缺失概率的估计量和总体均值的估计量具有相合性和渐近正态性 .
为叙述方便,首先记 α 0是未知参数 α的真值,
引理1 [ 30] 假设观测数据 V i ( i=1,2,…, n)独立同分布,
定理1 设
式中 Σ是( c ll' ) K×K 矩阵,并且 c ll'= E[ g l ( α) g l' ( α)] .
证明:当
g n (
于是
[Δ g n (
由条件1)和2)可得极值一阶条件2[Δ g n (
记 Π≡{[Δ g n (
推论1 如果缺失概率 π( Z, α)是 α的连续函数,则 π( Z,
定理2 假设
1) 缺失概率 π( X, U)关于 α二阶可导且存在常数 C 0使得inf X , Uπ ( X, U)≥ C 0 >0;
2) U的概率密度 f( u)存在并且在(0,1)内连续有界;
3) g(·)满足一阶李普希兹条件,即如果存在一个常数 C 1,使得对于定义域内任意的两点 u 1和 u 2有 |g( u 1) -g( u 2) |≤ C 1 |u 1 -u 2 |.
4)
5) 核函数 K(·)是对称的概率密度函数,则
其中
V=E{ σ 2( X, U) /π( X, U)} +var( X T β+g( U))
σ 2( X, U) =var( ε|X, U)
证明:记 Z i ≙( X i , U i ),通过计算可得
其中
S 1 =
S 2 =
S 3 =
S 4 =
由中心极限定理知
S 1
所以为证明式(17),只需证明 S l=O p (1), l=2,3,4,首先处理 S 2,直接计算可得
S 2 =
给定( Z i , δ i ),由随机缺失以及条件1)和4)得
Ε( S 2 |Z i , δ i ) 2 =
C
C
因为
E
于是E( S 2) 2→0,从而有 S 2 =O p (1) .
对于 S 3,由于E{
根据定理2,可以得到总体均值的置信水平为1 -α的置信区间是
(
式中:
3 模拟研究
下面利用2个模拟研究对本文提出的基于协变量平衡倾向得分逆概率加权借补方法进行数据模拟分析 .
首先,从部分线性模型
Y=X T β+g( U) +ε
产生数据考虑均值估计的偏差和根均方误差 . 式中: X=( X 1, X 2, X 3, X 4) T ~N 4(0, I 4); ε~N(0,1); U~U(0,1); β=(27 .4,13 .7,13 .7,13 .7) T g( U) =50 U 3,观测到的 Y由上面的模型产生 . 另外,缺失概率为
π( X, U) =
为了说明当模型被错误指定时,所提方法的估计效果,采取Kang等 [ 26] 的做法,即假设观测到的协变量是
X *= (
如果把 Y写成 X * T β+g( U) +ε或者把缺失概率写成 π( X * , U),那么模型就被错误指定 . 在下面的模拟中,考虑下面4种情形:
1) 缺失概率模型和回归模型都被正确指定;
2) 只有缺失概率模型被正确指定;
3) 只有回归模型被正确指定;
4) 缺失概率模型和回归模型都被错误指定 .
在模拟过程中,样本容量分别取 n=200和 n=500,对每种情形,实验重复1000次 . 分别计算每种情形下总体均值估计量的偏差和根均方误差并根据Liang [ 31] 的方法选取最优窗宽,模拟的结果见 表1 .
表 1 基于不同倾向得分方法得到的双稳健估计量的偏差和根均方误差Table 1. Biases and RMSE of the double robust estimator based on different propensity score estimation methods情形 n GLM CBPS1 CBPS2 2个模型都正确 200 -0.0079(2.8258) 0.0031(2.8108) 0.0092(2.8531) 500 -0.0014(1.7690) -0.0022(1.6961) -0.0047(1.7998) 缺失概率模型正确 200 0.0857(4.0401) 0.0455(3.4427) 0.0633(3.5009) 500 -0.0111(2.5533) 0.0055(2.2617) 0.0098(2.2600) 回归模型正确 200 -0.0011(3.3738) -0.0037(2.8609) -0.0032(2.7145) 500 0.0126(2.1230) 0.0017(1.8127) 0.0002(1.7810) 2个模型都错误 200 -4.4678(10.0557) -1.9548(4.2447) -1.9282(4.1409) 500 -8.2405(30.7522) -2.8219(3.8249) -2.8523(3.7897) 注:括号内的值表示双稳健估计量的根均方误差. 对于给定的情形,考虑双稳健估计量DR [ 8] 的表现,并且考虑的估计量基于下面不同的倾向得分方法:
1) 通常的GLM估计方法;
2) 恰好识别的协变量平衡倾向得分方法CBPS1;
3) 过识别的协变量平衡倾向得分方法CBPS2.
由 表1可知:
1) 当缺失概率模型和回归模型都正确指定时,相对于GLM方法得到的估计,本文提出的方法得到的双稳健估计量具有更小的根均方误差;
2) 当2个模型中仅有一个模型被正确指定时,利用本文提出的方法得到的估计量都具有最小的偏差和根均方误差;
3) 当2个模型都错误指定时,本文提出的基于协变量平衡倾向得分方法得到的双稳健估计量的效果明显优于基于通常的GLM方法的效果,这说明即使缺失概率模型和回归模型都被错误指定,基于本文提出的方法也能够得到总体均值的稳健估计.
其次,为了更好地说明本文提出的方法区间估计的效果,在缺失概率以及协变量等设置与前面保持不变的情况下,考虑部分线性模型中 β=(0 .2,0 .2,0 .5,1) T和 g( U) =5sin U的情形. 模拟结果见 表2.
表 2 μ的95%置信区间的平均区间长度和相应覆盖概率Table 2. Average lengths and coverage probabilities of the 95% confidence intervals for μ情形 n GLM CBPS1 TRUE 2个模型都正确 200 0.6691(0.944) 0.6385(0.945) 0.6609(0.948) 500 0.4289(0.946) 0.4126(0.946) 0.4295(0.949) 缺失概率模型正确 200 0.7531(0.932) 0.6958(0.935) 0.7254(0.938) 500 0.4962(0.945) 0.4652(0.950) 0.4849(0.946) 回归模型正确 200 0.8742(0.945) 0.6670(0.946) 0.6644(0.947) 500 0.6769 (0.948) 0.4317 (0.949) 0.4253(0.951) 2个模型都错误 200 0.8999(0.887) 0.7475(0.888) 0.7464(0.940) 500 0.9258(0.843) 0.5130(0.846) 0.4853(0.945) 注:括号内的值表示覆盖概率,TRUE表示利用真实概率的情形. 由 表2可知,本文的方法得到了比GLM方法更短的置信区间,并且基于本文方法所得置信区间对应的覆盖概率几乎都大于GLM方法所得置信区间对应的覆盖概率.
4 结论
1) 假定缺失概率为参数模型,并基于Imai等 [ 27] 在因果推断中提出的协变量平衡倾向得分的方法,估计出缺失概率中的未知参数;
2) 利用逆概率加权借补的思想得到了总体均值的估计;
3) 通过模拟研究,说明了本文方法的稳健性,即使在2个模型都被错误指定时,所得到的估计量也是稳健的.
The authors have declared that no competing interests exist. -
表 1 基于不同倾向得分方法得到的双稳健估计量的偏差和根均方误差
Table 1 Biases and RMSE of the double robust estimator based on different propensity score estimation methods
情形 n GLM CBPS1 CBPS2 2个模型都正确 200 -0.0079(2.8258) 0.0031(2.8108) 0.0092(2.8531) 500 -0.0014(1.7690) -0.0022(1.6961) -0.0047(1.7998) 缺失概率模型正确 200 0.0857(4.0401) 0.0455(3.4427) 0.0633(3.5009) 500 -0.0111(2.5533) 0.0055(2.2617) 0.0098(2.2600) 回归模型正确 200 -0.0011(3.3738) -0.0037(2.8609) -0.0032(2.7145) 500 0.0126(2.1230) 0.0017(1.8127) 0.0002(1.7810) 2个模型都错误 200 -4.4678(10.0557) -1.9548(4.2447) -1.9282(4.1409) 500 -8.2405(30.7522) -2.8219(3.8249) -2.8523(3.7897) 注:括号内的值表示双稳健估计量的根均方误差. 表 2 μ的95%置信区间的平均区间长度和相应覆盖概率
Table 2 Average lengths and coverage probabilities of the 95% confidence intervals for μ
情形 n GLM CBPS1 TRUE 2个模型都正确 200 0.6691(0.944) 0.6385(0.945) 0.6609(0.948) 500 0.4289(0.946) 0.4126(0.946) 0.4295(0.949) 缺失概率模型正确 200 0.7531(0.932) 0.6958(0.935) 0.7254(0.938) 500 0.4962(0.945) 0.4652(0.950) 0.4849(0.946) 回归模型正确 200 0.8742(0.945) 0.6670(0.946) 0.6644(0.947) 500 0.6769 (0.948) 0.4317 (0.949) 0.4253(0.951) 2个模型都错误 200 0.8999(0.887) 0.7475(0.888) 0.7464(0.940) 500 0.9258(0.843) 0.5130(0.846) 0.4853(0.945) 注:括号内的值表示覆盖概率,TRUE表示利用真实概率的情形. -
[1] ENGLE RF, GRANGER C W J, RICE J, et al.Semiparametric estimates of the relation between weather and electricity sales[J].Journal of the American Statistical Association,1986,81(394):310-320. [2] GAO JT,SHI PD.M-type smoothing splines inonparametric and semiparametric regression models[J].Statistica Sinica,1997,7(4):1155-1169. [3] HAMILTON SA,TRUONG YK.Local linear estimation in partly linear models[J].Journal of Multivariate Analysis,1997,60(1):1-19. [4] ROBINSON PM.Root-n-consistent semiparametric regression[J].Econometrika,1988,56(4):931-954. [5] XUE LG,ZHU LX.Empirical likelihood-based inference in a partially linear model for longitudinal data[J].Science in China: Series A,2008,51(1):115-130. [6] QINJ,SHAOJ,ZHANGB.Efficient and doubly robust imputation for covariate-dependent missing responses[J].Journal of the American Statistical Association,2008,103(482):797-810. [7] QINJ,ZHANGB.Empirical-likelihood-based inference in missing response problems and its application in observational studies[J].Journal of the Royal Statistical Society: Series B,2007,69(1):101-122. [8] ROBINS JM,ROTNITZKYA.Estimation of regression coefficients when some regressors are not always observed[J].Journal of the American Statistical Association,1994,89(427):846-866. [9] WANGD,CHEN SX.Empirical likelihood for estimating equations with missing values[J].The Annals of Statistics,2009,37(1):490-517. [10] ZHOUY,WAN A T K, WANG X J. Estimating equations inference with missing data[J].Journal of the American Statistical Association,2008,103(483):1187-1199. [11] WANGQ,RAO J N K. Empirical likelihood-based inference in linear models with missing data[J].Scandinavian Journal of Statistics,2002,29(3):563-576. [12] XUE LG.Empirical likelihood for linear models with missing responses[J].Journal of Multivariate Analysis,2009,100(7):1353-1366. [13] WANG CY,WANG SJ,GUTIERREZ RG,et al.Local linear regression for generalized linear models with missing data[J].The Annals of Statistics,1998,26(3):1028-1050. [14] XUED,XUE LG,CHENG WH.Empirical likelihood for generalized linear models with missing responses[J].Journal of Statistical Planning and Inference,2011,141(6):2007-2020. [15] ZHAO PX,XUE LG.Variable selection for semiparametric varying-coefficient partially linear models with missing response at random[J].Acta Methematica Sinica: English series,2011,27(11):2205-2216. [16] LIANGH,WANG SJ,ROBINS JM,et al.Estimation in partially linear models with missing covariates[J].Journal of the American Statistical Association,2004,99(466):357-367. [17] WANG QH,LINTONO,HARDLEW.Semiparametric regression analysis with missing response at random[J].Journal of the American Statistical Association,2004 ,99(466):334-345. [18] WANG QH,SUN ZH.Estimation in partially linear models with missing responses at random[J].Journal of Multivariate Analysis,2007,98(7):1470-1493. [19] LIANGH,WANG SJ,ROBINS JM,et al.Partially linear models with missing response variables and error-prone covariates[J].Biometrika,2007,94(1):185-198. [20] WANG QH.Statistical estimation in partial linear models with covariate data missing at random[J].Annals of the Institute of Statistical Mathematics,2009,61(1):47-84. [21] XUE LG,XUED.Empirical likelihood for semiparametric regression model with missing response data[J].Journal of Multivariate Analysis,2011,102(4):723-740. [22] LIANGH,QIN YS.Empirical likelihood-based inferencesfor partially linear models with missing covariates[J].Australian & New Zealand Journal of Statistics,2008,50(4):347-359. [23] CAO WH,TSIATIS AA,DAVIDIANM.Improving efficiency and roubustness of the doubly robust estimator for a population mean with incomplete data[J].Biometrika,2009,96(3):723-734. [24] HAN PS,WANGL.Estimation with missing data: beyond double robustness[J].Biometrika,2013,100(2):417-430. [25] HAN PS.Multiply robust estimation in regression analysis with missing data[J].Journal of the American Statistical Association,2014,109(507),1159-1173. [26] KANG J DY,SCHAFER JL.Demystifying double robustness: a comparison of alternative strategies for estimating a population mean from incomplete data[J].Statistical Science,2007,22(4):523-539. [27] IMAIK,RATKOVICM.Covariate balancing propensity score[J].Journal of the Royal Statistical Society: Series B,2014,76(1):243-263. [28] RUBIN DB.Inference and missing data[J].Biometrika,1976,63(3):581-592. [29] HANSEN LP.Large sample properties of generalized method of moments estimators[J].Econometrica,1982,50(4):1029-1054. [30] NEWEY WK,MCFADDEND.Large sample estimation and hypothesis testing[M].New York: Springer,1994:18-58. [31] LIANGH.Asymptotic normality of parametric part in partially linear models with measurement error in the nonparametric part[J].Journal of Statistical Planning and Inference,2000,86(1):51-62.
计量
- 文章访问数: 53
- HTML全文浏览量: 23
- PDF下载量: 11