• 综合性科技类中文核心期刊
    • 中国科技论文统计源期刊
    • 中国科学引文数据库来源期刊
    • 中国学术期刊文摘数据库(核心版)来源期刊
    • 中国学术期刊综合评价数据库来源期刊

响应变量缺失下部分线性模型均值的稳健估计

郭东林, 薛留根, 胡玉琴

郭东林, 薛留根, 胡玉琴. 响应变量缺失下部分线性模型均值的稳健估计[J]. 北京工业大学学报, 2017, 43(2): 313-319. DOI: 10.11936/bjutxb2016040017
引用本文: 郭东林, 薛留根, 胡玉琴. 响应变量缺失下部分线性模型均值的稳健估计[J]. 北京工业大学学报, 2017, 43(2): 313-319. DOI: 10.11936/bjutxb2016040017
GUO Donglin, XUE Liugen, HU Yuqin. Robust Estimation of Mean in Partially Linear Model With Missing Responses[J]. Journal of Beijing University of Technology, 2017, 43(2): 313-319. DOI: 10.11936/bjutxb2016040017
Citation: GUO Donglin, XUE Liugen, HU Yuqin. Robust Estimation of Mean in Partially Linear Model With Missing Responses[J]. Journal of Beijing University of Technology, 2017, 43(2): 313-319. DOI: 10.11936/bjutxb2016040017

响应变量缺失下部分线性模型均值的稳健估计

基金项目: 国家自然科学基金资助项目(11571025)
详细信息
    作者简介:

    郭东林(1982—), 男, 博士生研究生, 讲师, 主要从事复杂数据统计推断方面的研究, E-mail:gdl1105@emails.bjut.edu.cn

  • 中图分类号: O212.7

Robust Estimation of Mean in Partially Linear Model With Missing Responses

  • 摘要:

    为了提高估计的稳健性,基于协变量平衡倾向得分和增强的逆概率加权方法,得到了响应变量随机缺失下部分线性模型总体均值的稳健估计,证明了相应估计量具有渐近正态性,利用所得结果构造了总体均值的置信区间.

    Abstract:

    To improve the robustness of an estimator, based on the covariate balancing propensity score and the augmented inverse probability weighted methods, a robust estimator of the population mean was obtained for the partially linear model, when the responses were missing at random. It is proved that the proposed estimator is asymptotically normal, and hence it can be applied to constructing the confidence region of the population mean.

  • 部分线性模型是现代统计模型中一类非常重要的半参数模型. 由于它包含了线性模型和非参数模型的特点,因此自从该模型被Engle等 [ 1] 提出以来,便引起了众多学者的关注 [ 2- 5] ,其中Robinson [ 4] 利用最小二乘和核估计方法得到了部分线性模型中参数分量和非参数分量的估计量,并研究了参数分量估计的渐近正态性以及非参数分量估计的收敛速度. Xue等 [ 5] 利用经验似然方法研究了纵向数据下部分线性模型的估计问题,构造了模型中参数分量和非参数分量的经验似然置信域和置信区间.

    在实际问题中,由于某种原因,经常会出现缺失数据. 如果只利用观测到的数据进行统计推断,得到的估计往往是有偏的. 对于缺失数据的研究,目前已有大量的文献 [ 6- 15] ,其中Wang等 [ 11] 以及Xue [ 12] 分别利用经验似然方法研究了响应变量缺失下线性模型的统计推断;Wang等 [ 13] 和Xue等 [ 14] 讨论了广义线性模型具有缺失数据的估计问题. 对于缺失数据下部分线性模型,目前也已有很多文献进行了研究 [ 16- 22] ,其中Wang等 [ 17] 利用逆概率加权借补的方法研究了响应变量随机缺失下部分线性模型中总体均值的估计问题,并得到了估计量的渐近正态性. Wang等 [ 18] 考虑了响应变量随机缺失下部分线性模型中参数分量和非参数分量的估计. Xue等 [ 21] 利用纠偏技术分别构造了参数分量、非参数分量以及总体均值的经验似然比统计量,并证明了它们渐近于标准卡方分布,由此得到了兴趣参数的置信域和置信区间.

    在处理缺失数据时,最常用的方法有逆概率加权和增强的逆概率加权. 增强的逆概率加权又称为逆概率加权借补,其优点是能使得估计量具有双稳健性,即如果缺失概率模型和回归模型中至少有一个模型被正确指定,那么得到的估计量就是相合的. 稳健估计是缺失数据研究的重要课题之一,自从Robins等 [ 8] 提出增强的逆概率加权方法以来,已有许多文献讨论了估计的稳健性问题,如文献[23-26]等. Kang等 [ 26] 提出了几种构造双稳健估计量的方法,但同时也指出了当2个模型都被错误指定时,双稳健估计的效果会非常差.

    为了克服双稳健估计量在缺失概率模型和回归模型都被错误指定时出现的问题,本文在缺失概率是一个参数模型的假设下,利用Imai等 [ 27] 提出的协变量平衡倾向得分的方法估计缺失概率中的未知参数,最后基于增强的逆概率加权思想得到了响应变量随机缺失下部分线性模型中总体均值的稳健估计,并证明了所得的估计具有渐近正态性, 从而可以利用所得结果构造总体均值的置信区间.

    考虑部分线性模型

    Y=X T β+g( U) (1)

    式中: β1维的未知参数向量; g(·)为一个未指定的函数; ε为模型误差,满足 E( ε|X, U) =0 . 协变量 XU可以完全观测,而响应变量 Y具有缺失,并且当指示变量 δ=1时, 表示 Y能观测, δ=0时,表示 Y缺失 . 本文假定 Y是随机缺失 [ 28] 的, 即

    P( δ=1 |Y, X, U) =P( δ=1 |X, U) ( X, U)

    并且选择缺失机制为logistic模型:

    π( X, U) = exp ( α 0 + α 1 U + α T 2 X ) 1 + exp ( α 0 + α 1 U + α T 2 X )

    式中 α≡( α 0, α 1, α T 2 )∈ ΘL维未知参数 .

    设( X i , Y i , U i , δ i ), i=1,2,…, n是来自模型(1)的随机样本 . 由式(1)可知

    δY=δX T β+δg( U) +δε (2)

    给定 U=u, 对式(2)求条件期望可得E( δY|U=u) =E( δX T |U=u) β+E( δ|U=u) g( U), 从而可得

    g( u) =g 2( u) -g 1( u) T β (3)

    其中

    g 1( u) =E( δX|U=u) /E( δ|U=u)

    g 2( u) =E( δY|U=u) /E( δ|U=u)

    由式(1)(3)可得

    δ i [ Y i-g 2( U i )] i [ X i-g 1( U i )] T β+δ iε i (4)

    从而基于完全数据情况(complete case data),可得 β的最小二乘估计为

    β ̂ c =( i = 1 n δ i X ̃ i X ̃ T i ) - 1 i = 1 n δ i X ̃ i X ̃ i (5)

    其中

    X ̃ i =X i- g ̂ 1 ( U i ) =X i- i = 1 n δ i X i K ( U j - U i ) / h ) j = 1 n δ j K ( U j - U i ) / h )

    Y ̃ i =Y i- g ̂ 2 ( U i ) =Y i- i = 1 n δ i Y i K ( U j - U i ) / h ) j = 1 n δ j K ( U j - U i ) / h )

    式中 K(·)为一个Borel可测的核函数 . 由式(3)以及 g ̂ 1 ( u)和 g ̂ 2 ( u),可得 g( u)的估计为

    g ̂ ( u) = g ̂ 2 ( u) - g ̂ 1 ( u) T β ̂ c (6)

    在缺失概率为参数模型时,如文献中经常用到的logistic模型,可以基于完全观测到的( Z i , δ i ), i=1,2,…, n,其中 Z i ≙( X i , U i ),利用极大似然方法得到未知参数 α的估计,即最大化对数似然函数

    i = 1 n { δ i ln[ π( Z i , α)] +(1 i )ln[1 ( Z i , α)]}

    如果 π( Z, α)关于 α是二阶连续可导,那么最大化对数似然函数等价于

    1 n i = 1 n S α ( Z i , δ i ) =0 (7)

    其中

    S α ( Z i , δ i ) = δ i π' ( Z i , α ) π ( Z i , α ) - ( 1 - δ i ) π' ( Z i , α ) 1 - π ( Z i , α ) (8)

    从而得到未知参数 α的极大似然估计量,进而可以利用逆概率加权等方法得到兴趣参数的估计 .

    通常的极大似然估计方法简单易行,但是当缺失概率被错误指定时,基于 α的极大似然估计量的逆概率加权等方法得到的兴趣参数的估计量会有很大的偏差 . 为了克服这一问题并得到兴趣参数的稳健估计,本小节利用Imai等 [ 27] 在因果推断中提出的协变量平衡倾向得分的方法对 α进行估计,即令缺失概率 π( Z, α)满足协变量平衡条件

    E[ δ i Z ̃ i π ( Z i , α ) - ( 1 - δ i ) Z ̃ i 1 - π ( Z i , α ) ] =0 (9)

    式中 Z ˙ i =f( Z i )为一个指定的 M维的可测函数 . 由式(9)可得协变量平衡条件的样本形式为

    1 n i = 1 n w α ( Z i , δ i ) Z ̃ i =0 (10)

    其中

    w α ( Z i , δ i ) = δ i - π ( Z i , α ) π ( Z i , α ) [ 1 - π ( Z i , α ) ] (11)

    Z ̃ =π'( Z i , α)时,式(10)就变成了式(7),所以式(10)可以看成是极大似然估计中得分函数的推广 . 同时利用式(7)和式(10)可以得到未知参数 α的估计 . 此时方程的个数 K=L+M大于未知参数 α的维数 L,称协变量平衡倾向得分是过识别 . 根据Hansen [ 29] 提出的GMM方法得到 α的有效估计为

    α ̂ = arg min α Θ g ¯ ( Z, δ, α) T W g ¯ ( Z, δ, α)(12)

    其中

    g ¯ ( Z, δ, α) = 1 n i = 1 n g( Z i , δ i , α) g( Z i , δ i , α) = S α ( Z i , δ i ) w α ( Z i , δ i ) Z ˙ i (13)

    权矩阵 W是半正定矩阵,一般地,取 W为单位矩阵或无偏估计函数向量的协方差矩阵的逆 . 利用两步估计方法,可以得到参数 α的GMM估计量 α,具体算法如下:

    1) 通过最小化 g ¯ ( Z, δ, α) T g ¯ ( Z, δ, α)得到 α的初始估计 α ̂ 1 .

    2) 令W是( a ll' ) K×K 的逆矩阵,其中

    a ll'= 1 n i = 1 n g l ( Z i , δ i , α ̂ 1 ) g l' ( Z i , δ i , α ̂ 1 )

    通过最小化 g ¯ ( Z, δ, α) TW g ¯ ( Z, δ, α)即可得到 α ̂ .

    另外,令 Z ˙ i =Z i ,此时协变量平衡条件式(10)对应的方程个数等于未知参数的维数,称协变量平衡倾向得分是恰好识别 . 对于恰好识别的情形,可以利用类似于求解式(12)中未知参数的方法求解式(10),从而得到缺失概率 π( Z, α)中未知参数的估计 α ̂ .

    本小节将基于前面得到的回归系数和缺失概率的估计,利用逆概率加权借补的方法对总体均值进行统计推断 .

    Y ̂ i = δ i Y i π ( Z i , ) +(1 - δ i π ( Z i , ) )[ X T i β ̂ c + g ̂ ( U i )] (14)

    基于协变量平衡倾向得分的逆概率加权借补,提出总体均值 μ的估计量为

    μ ̂ = 1 n i = 1 n Y ̂ i (15)

    虽然式(15)的形式与Wang等 [ 17] 以及Xue等 [ 21] 类似,但是基于协变量平衡倾向得分的逆概率加权借补方法得到的兴趣参数的估计量具有下面的优点:

    1) 利用参数模型作为缺失机制避免了非参数估计中常常遇到的“维数灾祸”问题;

    2) 即使当参数模型被错误指定,基于协变量平衡倾向得分的逆概率加权借补方法得到的兴趣参数的估计量也是稳健的;

    3) 该方法比缺失数据中经常用到的双稳健估计方法更稳健 .

    双稳健估计即缺失概率和回归模型至少有一个被正确指定时,得到的兴趣参数的估计都是相合的,但是当2个模型都被错误指定时,双稳健估计量的效果就会非常差,详见文献[26],而基于协变量平衡倾向得分的逆概率加权借补方法得到的估计量克服了这一问题 .将通过后面的模拟部分进行说明 .

    本节将证明基于协变量平衡得分得到的缺失概率的估计量和总体均值的估计量具有相合性和渐近正态性 .

    为叙述方便,首先记 α 0是未知参数 α的真值, α ̂ 是使得式(12)达到最小值的GMM估计量,记 g( α) =g( Z, δ, α), g 0( α) =E[ g( α)], g n ( α) = 1 n i = 1 n g( α), Q 0( α) =g 0( α) T Wg 0( α)及 Q n ( α) =g n ( α) TW g n ( α),‖·‖ 表示欧氏范数 .

    引理1 [ 30] 假设观测数据 V i ( i=1,2,…, n)独立同分布, W ̃ P W. 1) 当且仅当 α=α 0时, WE[ g( v, α)] =0,其中权矩阵 W是半正定矩阵;2) α 0ΘΘ是紧的;3) 依概率1有 g( v, α)关于 αΘ连续;4) E[sup α Θ g( v, α)‖] <∞. 则有

    α ̂ P α 0

    定理1 设 α ̂ 是使 Q n ( α) =g n ( α) TW g n ( α)达到最小的参数值,其中W是1 .2节中定义的权矩阵 . 1) α 0Θ的内点;2) g n ( α)在 α 0的邻域 Δ内连续可微;3) E( g( α 0)) =0,E(‖ g( α 0)‖ 2) <∞;4) E[ sup α Θ ‖Δ αg ( α)‖] <∞;5) Γ( α) =E[Δ αg ( α)]存在,且 ΓΓ( α 0)使 Γ'WΓ是非奇异的,则

    n ( α ̂ 0) d N(0,( Γ T Σ - 1 Γ) - 1) (16)

    式中 Σ是( c ll' ) K×K 矩阵,并且 c ll'= E[ g l ( α) g l' ( α)] .

    证明:当 W ̃ =I K×K 时,由引理1知, α ̂ 1 P α,类似于引理1的证明可得 W ̃ P Σ - 1, α ̂ P α 0 .α 0处把 g n ( α ̂ )泰勒展开得

    g n ( α ̂ ) =g n ( α 0) +Δ g n ( α * )( α ̂ 0)

    于是

    g n ( α ̂ )] T W ̂ g n ( α ̂ ) =g n ( α ̂ )] T W ̂ g n ( α 0) +g n ( α ̂ )] T W ̂ Δ g n ( α * )( α ̂ 0)

    由条件1)和2)可得极值一阶条件2[Δ g n ( α ̂ )] T W ̂ g n ( α ̂ ) =0,所以

    n ( α ̂ 0) =-{[Δ g n ( α ̂ )] T W ̂ Δ g n ( α * )} - 1·[Δ g n ( α ̂ )] T W ̂ n g n ( α 0)

    Π≡{[Δ g n ( α ̂ )] T W ̂ Δ g n ( α * )} - 1g n ( α ̂ )] T W ̂ ,因为 α ̂ P α 0,所以 α * P α 0,又由于 W ̂ P Σ - 1以及Δ αg ( α ̂ ) P Γ,因此 Π P ( Γ T Σ - 1 Γ) - 1 Γ T Σ - 1 . 根据中心极限定理可得 n g n ( α 0) d N(0, Σ),所以由Slutsky定理知式(16)成立 .

    推论1 如果缺失概率 π( Z, α)是 α的连续函数,则 π( Z, α ̂ )是 π( Z, α)的相合估计 .

    定理2 假设

    1) 缺失概率 π( X, U)关于 α二阶可导且存在常数 C 0使得inf X , Uπ ( X, U)≥ C 0 >0;

    2) U的概率密度 f( u)存在并且在(0,1)内连续有界;

    3) g(·)满足一阶李普希兹条件,即如果存在一个常数 C 1,使得对于定义域内任意的两点 u 1u 2|g( u 1) -g( u 2) |C 1 |u 1 -u 2 |.

    4) sup x , u E[ ε 2 |X=x, U=u] <∞ sup u E[‖ X2 |U=u] <∞.

    5) 核函数 K(·)是对称的概率密度函数,则

    n ( μ ̂ ) d N(0, V)(17)

    其中

    V=E{ σ 2( X, U) ( X, U)} +var( X T β+g( U))

    σ 2( X, U) =var( ε|X, U)

    证明:记 Z i ≙( X i , U i ),通过计算可得

    n ( μ ̂ ) =S 1 +S 2 +S 3 +S 4(18)

    其中

    S 1 = 1 n i = 1 n { δ i ε i π ( Z i , α ) +[ X T i β+g( U i ) ]}

    S 2 = 1 n i = 1 n [ 1 π ( Z i , ) - 1 π ( Z i , α ) ] δ iε i

    S 3 = 1 n i = 1 n [1 - δ i π ( Z i , ) ] X T i ( β ̂ c )

    S 4 = 1 n i = 1 n [1 - δ i π ( Z i , ) ][ g ̂ ( U i ) -g( U i )]

    由中心极限定理知

    S 1 d N(0, V)

    所以为证明式(17),只需证明 S l=O p (1), l=2,3,4,首先处理 S 2,直接计算可得

    S 2 = 1 n i = 1 n [ π ( Z i , α ) - π ( Z i , ) π ( Z i , ) π ( Z i , α ) ] δ iε i

    给定( Z i , δ i ),由随机缺失以及条件1)和4)得

    Ε( S 2 |Z i , δ i ) 2 =

    1 n i = 1 n ( π ( Z i , α ) - π ( Z i , ) ) 2 π 2 ( Z i , ) π 2 ( Z i , α ) δ iσ 2( Z i )≤

    C max 1 i n ( π( Z i , α) ( Z i , α ̂ )) 2 1 n i = 1 n σ 2( Z i )≤

    C max 1 i n ( π( Z i , α) ( Z i , α ̂ )) 2

    因为 max 1 i n ( π( Z i , α) ( Z i , α ̂ )) 2≤1,所以由控制收敛定理和推论1可得

    E max 1 i n ( π( Z i , α) ( Z i , α ̂ )) 2→0

    于是E( S 2) 2→0,从而有 S 2 =O p (1) .

    对于 S 3,由于E{ 1 n i = 1 n [1 - δ i π ( Z i , α ) ]X i } =0和 β ̂ c -β=O p ( n - 1 / 2)以及推论1,因此 S 3 =O p (1) . 最后,由Xue等 [ 21] 引理6可知 S 4 =O p (1) . 定理得证 .

    根据定理2,可以得到总体均值的置信水平为1 的置信区间是

    ( μ ̂ -z 1 -α/ 2 / n , μ ̂ +z 1 -α/ 2 / n )

    式中: V ̂ = 1 n i = 1 n ( Y ̂ i - μ ̂ ) 2; z 1 -α/ 2为标准正态分布的1 -α/2分位数 .

    下面利用2个模拟研究对本文提出的基于协变量平衡倾向得分逆概率加权借补方法进行数据模拟分析 .

    首先,从部分线性模型

    Y=X T β+g( U)

    产生数据考虑均值估计的偏差和根均方误差 . 式中: X=( X 1, X 2, X 3, X 4) T ~N 4(0, I 4); ε~N(0,1); U~U(0,1); β=(27 .4,13 .7,13 .7,13 .7) T g( U) =50 U 3,观测到的 Y由上面的模型产生 . 另外,缺失概率为

    π( X, U) = exp ( X 1 + 0.5 X 2 + 0.25 X 3 + 0.1 X 4 + 0.2 U ) 1 + exp ( X 1 + 0.5 X 2 + 0.25 X 3 + 0.1 X 4 + 0.2 U )

    为了说明当模型被错误指定时,所提方法的估计效果,采取Kang等 [ 26] 的做法,即假设观测到的协变量是

    X *= ( X 1 * , X 2 * , X 3 * , X 4 * ) T ={exp( X 1 /2), X 2 /{1 +exp( X 1)} +10,( X 1 X 3 /25 +0 .6) 3,( X 2 +X 4 +20) 2}

    如果把 Y写成 X * T β+g( U) 或者把缺失概率写成 π( X * , U),那么模型就被错误指定 . 在下面的模拟中,考虑下面4种情形:

    1) 缺失概率模型和回归模型都被正确指定;

    2) 只有缺失概率模型被正确指定;

    3) 只有回归模型被正确指定;

    4) 缺失概率模型和回归模型都被错误指定 .

    在模拟过程中,样本容量分别取 n=200和 n=500,对每种情形,实验重复1000次 . 分别计算每种情形下总体均值估计量的偏差和根均方误差并根据Liang [ 31] 的方法选取最优窗宽,模拟的结果见 表1 .

    表  1  基于不同倾向得分方法得到的双稳健估计量的偏差和根均方误差
    Table  1.  Biases and RMSE of the double robust estimator based on different propensity score estimation methods
    情形 n GLM CBPS1 CBPS2
    2个模型都正确 200 -0.0079(2.8258) 0.0031(2.8108) 0.0092(2.8531)
    500 -0.0014(1.7690) -0.0022(1.6961) -0.0047(1.7998)
    缺失概率模型正确 200 0.0857(4.0401) 0.0455(3.4427) 0.0633(3.5009)
    500 -0.0111(2.5533) 0.0055(2.2617) 0.0098(2.2600)
    回归模型正确 200 -0.0011(3.3738) -0.0037(2.8609) -0.0032(2.7145)
    500 0.0126(2.1230) 0.0017(1.8127) 0.0002(1.7810)
    2个模型都错误 200 -4.4678(10.0557) -1.9548(4.2447) -1.9282(4.1409)
    500 -8.2405(30.7522) -2.8219(3.8249) -2.8523(3.7897)
    注:括号内的值表示双稳健估计量的根均方误差.
    下载: 导出CSV 
    | 显示表格

    对于给定的情形,考虑双稳健估计量DR [ 8] 的表现,并且考虑的估计量基于下面不同的倾向得分方法:

    1) 通常的GLM估计方法;

    2) 恰好识别的协变量平衡倾向得分方法CBPS1;

    3) 过识别的协变量平衡倾向得分方法CBPS2.

    表1可知:

    1) 当缺失概率模型和回归模型都正确指定时,相对于GLM方法得到的估计,本文提出的方法得到的双稳健估计量具有更小的根均方误差;

    2) 当2个模型中仅有一个模型被正确指定时,利用本文提出的方法得到的估计量都具有最小的偏差和根均方误差;

    3) 当2个模型都错误指定时,本文提出的基于协变量平衡倾向得分方法得到的双稳健估计量的效果明显优于基于通常的GLM方法的效果,这说明即使缺失概率模型和回归模型都被错误指定,基于本文提出的方法也能够得到总体均值的稳健估计.

    其次,为了更好地说明本文提出的方法区间估计的效果,在缺失概率以及协变量等设置与前面保持不变的情况下,考虑部分线性模型中 β=(0 .2,0 .2,0 .5,1) Tg( U) =5sin U的情形. 模拟结果见 表2.

    表  2  μ的95%置信区间的平均区间长度和相应覆盖概率
    Table  2.  Average lengths and coverage probabilities of the 95% confidence intervals for μ
    情形 n GLM CBPS1 TRUE
    2个模型都正确 200 0.6691(0.944) 0.6385(0.945) 0.6609(0.948)
    500 0.4289(0.946) 0.4126(0.946) 0.4295(0.949)
    缺失概率模型正确 200 0.7531(0.932) 0.6958(0.935) 0.7254(0.938)
    500 0.4962(0.945) 0.4652(0.950) 0.4849(0.946)
    回归模型正确 200 0.8742(0.945) 0.6670(0.946) 0.6644(0.947)
    500 0.6769 (0.948) 0.4317 (0.949) 0.4253(0.951)
    2个模型都错误 200 0.8999(0.887) 0.7475(0.888) 0.7464(0.940)
    500 0.9258(0.843) 0.5130(0.846) 0.4853(0.945)
    注:括号内的值表示覆盖概率,TRUE表示利用真实概率的情形.
    下载: 导出CSV 
    | 显示表格

    表2可知,本文的方法得到了比GLM方法更短的置信区间,并且基于本文方法所得置信区间对应的覆盖概率几乎都大于GLM方法所得置信区间对应的覆盖概率.

    1) 假定缺失概率为参数模型,并基于Imai等 [ 27] 在因果推断中提出的协变量平衡倾向得分的方法,估计出缺失概率中的未知参数;

    2) 利用逆概率加权借补的思想得到了总体均值的估计;

    3) 通过模拟研究,说明了本文方法的稳健性,即使在2个模型都被错误指定时,所得到的估计量也是稳健的.

    The authors have declared that no competing interests exist.
  • 表  1   基于不同倾向得分方法得到的双稳健估计量的偏差和根均方误差

    Table  1   Biases and RMSE of the double robust estimator based on different propensity score estimation methods

    情形 n GLM CBPS1 CBPS2
    2个模型都正确 200 -0.0079(2.8258) 0.0031(2.8108) 0.0092(2.8531)
    500 -0.0014(1.7690) -0.0022(1.6961) -0.0047(1.7998)
    缺失概率模型正确 200 0.0857(4.0401) 0.0455(3.4427) 0.0633(3.5009)
    500 -0.0111(2.5533) 0.0055(2.2617) 0.0098(2.2600)
    回归模型正确 200 -0.0011(3.3738) -0.0037(2.8609) -0.0032(2.7145)
    500 0.0126(2.1230) 0.0017(1.8127) 0.0002(1.7810)
    2个模型都错误 200 -4.4678(10.0557) -1.9548(4.2447) -1.9282(4.1409)
    500 -8.2405(30.7522) -2.8219(3.8249) -2.8523(3.7897)
    注:括号内的值表示双稳健估计量的根均方误差.
    下载: 导出CSV

    表  2   μ的95%置信区间的平均区间长度和相应覆盖概率

    Table  2   Average lengths and coverage probabilities of the 95% confidence intervals for μ

    情形 n GLM CBPS1 TRUE
    2个模型都正确 200 0.6691(0.944) 0.6385(0.945) 0.6609(0.948)
    500 0.4289(0.946) 0.4126(0.946) 0.4295(0.949)
    缺失概率模型正确 200 0.7531(0.932) 0.6958(0.935) 0.7254(0.938)
    500 0.4962(0.945) 0.4652(0.950) 0.4849(0.946)
    回归模型正确 200 0.8742(0.945) 0.6670(0.946) 0.6644(0.947)
    500 0.6769 (0.948) 0.4317 (0.949) 0.4253(0.951)
    2个模型都错误 200 0.8999(0.887) 0.7475(0.888) 0.7464(0.940)
    500 0.9258(0.843) 0.5130(0.846) 0.4853(0.945)
    注:括号内的值表示覆盖概率,TRUE表示利用真实概率的情形.
    下载: 导出CSV
  • [1] ENGLE RF, GRANGER C W J, RICE J, et al.Semiparametric estimates of the relation between weather and electricity sales[J].Journal of the American Statistical Association,1986,81(394):310-320.
    [2] GAO JT,SHI PD.M-type smoothing splines inonparametric and semiparametric regression models[J].Statistica Sinica,1997,7(4):1155-1169.
    [3] HAMILTON SA,TRUONG YK.Local linear estimation in partly linear models[J].Journal of Multivariate Analysis,1997,60(1):1-19.
    [4] ROBINSON PM.Root-n-consistent semiparametric regression[J].Econometrika,1988,56(4):931-954.
    [5] XUE LG,ZHU LX.Empirical likelihood-based inference in a partially linear model for longitudinal data[J].Science in China: Series A,2008,51(1):115-130.
    [6] QINJ,SHAOJ,ZHANGB.Efficient and doubly robust imputation for covariate-dependent missing responses[J].Journal of the American Statistical Association,2008,103(482):797-810.
    [7] QINJ,ZHANGB.Empirical-likelihood-based inference in missing response problems and its application in observational studies[J].Journal of the Royal Statistical Society: Series B,2007,69(1):101-122.
    [8] ROBINS JM,ROTNITZKYA.Estimation of regression coefficients when some regressors are not always observed[J].Journal of the American Statistical Association,1994,89(427):846-866.
    [9] WANGD,CHEN SX.Empirical likelihood for estimating equations with missing values[J].The Annals of Statistics,2009,37(1):490-517.
    [10] ZHOUY,WAN A T K, WANG X J. Estimating equations inference with missing data[J].Journal of the American Statistical Association,2008,103(483):1187-1199.
    [11] WANGQ,RAO J N K. Empirical likelihood-based inference in linear models with missing data[J].Scandinavian Journal of Statistics,2002,29(3):563-576.
    [12] XUE LG.Empirical likelihood for linear models with missing responses[J].Journal of Multivariate Analysis,2009,100(7):1353-1366.
    [13] WANG CY,WANG SJ,GUTIERREZ RG,et al.Local linear regression for generalized linear models with missing data[J].The Annals of Statistics,1998,26(3):1028-1050.
    [14] XUED,XUE LG,CHENG WH.Empirical likelihood for generalized linear models with missing responses[J].Journal of Statistical Planning and Inference,2011,141(6):2007-2020.
    [15] ZHAO PX,XUE LG.Variable selection for semiparametric varying-coefficient partially linear models with missing response at random[J].Acta Methematica Sinica: English series,2011,27(11):2205-2216.
    [16] LIANGH,WANG SJ,ROBINS JM,et al.Estimation in partially linear models with missing covariates[J].Journal of the American Statistical Association,2004,99(466):357-367.
    [17] WANG QH,LINTONO,HARDLEW.Semiparametric regression analysis with missing response at random[J].Journal of the American Statistical Association,2004 ,99(466):334-345.
    [18] WANG QH,SUN ZH.Estimation in partially linear models with missing responses at random[J].Journal of Multivariate Analysis,2007,98(7):1470-1493.
    [19] LIANGH,WANG SJ,ROBINS JM,et al.Partially linear models with missing response variables and error-prone covariates[J].Biometrika,2007,94(1):185-198.
    [20] WANG QH.Statistical estimation in partial linear models with covariate data missing at random[J].Annals of the Institute of Statistical Mathematics,2009,61(1):47-84.
    [21] XUE LG,XUED.Empirical likelihood for semiparametric regression model with missing response data[J].Journal of Multivariate Analysis,2011,102(4):723-740.
    [22] LIANGH,QIN YS.Empirical likelihood-based inferencesfor partially linear models with missing covariates[J].Australian & New Zealand Journal of Statistics,2008,50(4):347-359.
    [23] CAO WH,TSIATIS AA,DAVIDIANM.Improving efficiency and roubustness of the doubly robust estimator for a population mean with incomplete data[J].Biometrika,2009,96(3):723-734.
    [24] HAN PS,WANGL.Estimation with missing data: beyond double robustness[J].Biometrika,2013,100(2):417-430.
    [25] HAN PS.Multiply robust estimation in regression analysis with missing data[J].Journal of the American Statistical Association,2014,109(507),1159-1173.
    [26] KANG J DY,SCHAFER JL.Demystifying double robustness: a comparison of alternative strategies for estimating a population mean from incomplete data[J].Statistical Science,2007,22(4):523-539.
    [27] IMAIK,RATKOVICM.Covariate balancing propensity score[J].Journal of the Royal Statistical Society: Series B,2014,76(1):243-263.
    [28] RUBIN DB.Inference and missing data[J].Biometrika,1976,63(3):581-592.
    [29] HANSEN LP.Large sample properties of generalized method of moments estimators[J].Econometrica,1982,50(4):1029-1054.
    [30] NEWEY WK,MCFADDEND.Large sample estimation and hypothesis testing[M].New York: Springer,1994:18-58.
    [31] LIANGH.Asymptotic normality of parametric part in partially linear models with measurement error in the nonparametric part[J].Journal of Statistical Planning and Inference,2000,86(1):51-62.
表(2)
计量
  • 文章访问数:  53
  • HTML全文浏览量:  23
  • PDF下载量:  11
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-04-06
  • 网络出版日期:  2023-05-23
  • 刊出日期:  2017-01-31

目录

/

返回文章
返回