基于em算法的一个变量有缺失时二元正态变量的参数估计【字数:7724】
目录
摘要 4
关键词 4
Abstract 4
Key words 4
引言 4
1 论文背景及选题意义 5
2 国内外研究综述 5
2.1 国外研究综述 5
2.2 国内研究综述 5
3 理论基础 6
3.1 缺失数据分类 6
3.1.1 按照缺失机制划分 6
3.1.2 按照缺失模式划分 6
3.2 传统缺失数据处理方法 7
3.3 极大似然估计理论 7
3.4 EM算法理论 8
3.4.1 EM(expectation maximization)算法定义 8
3.4.2 EM算法定理 8
4 模型的假定 9
4.1 定义 9
4.1.1 二维正态分布定义 9
4.1.2 缺失数据定义 9
4.2 模型假设 10
5 模型的建立与参数估计 10
5.1 E步 10
5.2 M步 12
5.3 EM算法与传统方法比较 15
6 模拟分析 16
6.1 不同缺失率下EM算法 16
6.2 EM算法与传统算法比较 20
7 讨论与总结 22
致谢 23
参考文献 23
基于EM算法的一个变量有缺失时二元正态变量的参数估计
引言
在社会调查中,缺失 *51今日免费论文网|www.jxszl.com +Q: #351916072#
数据是医学,社会科学和许多其他学科中常见的问题。当数据存在缺失时,不仅会造成数据质量下降,信息不确定等问题,还会给统计分析造成困难。因为存在缺失数据会降低对信息的利用,甚至还有可能造成无意义甚至错误的统计结果。
对于缺失数据问题的研究包括缺失响应变量,缺失协变量或两者兼而有之。已有的对缺失数据的研究工作主要集中在三种不同的缺失数据机制:完全随机丢失,其中缺失与任何观察到或缺失的变量都无关;随机丢失,其中缺失是否发生只与已观察到的变量有关;不可忽视的缺失,其中缺失与未观察到的变量有关,这种机制是最难以处理的。传统缺失数据的处理方法分为删除和填补两大类,这两类方法易于理解且容易操作,但并不是效率较高的方法。极大似然估计法可以产生有效的统计量。而EM算法是进行极大似然估计的一个非常有效的方法,该方法不是单纯对缺失数据进行插补,而是对缺失数据进行研究并使用迭代的方法对数据进行处理。
本文借鉴前面学者已得到的知识与研究成果,针对二元正态分布,研究只有一个变量随机缺失时使用EM算法对数据集进行参数估计。基于EM算法的收敛性和二元正态分布的条件分布也服从正态分布的特点,推导出均值、方差及相关系数相应的公式。并进行随机数据模拟,在不同缺失率下,对比使用EM算法求得的参数与完整数据对应的参数,讨论EM算法的有效性与缺失率的关系。并在不同的缺失率下与传统的方法作比较讨论EM方法何时更为适用。
论文背景及选题意义
不难发现在社会调查中最为常见的问题之一就是存在缺失数据。缺失数据是由于统计调查过程中失访、答者拒绝回复,统计分析中回答问题不合格等造成。在实际调查中数据缺失是难以避免的情况。但是存在缺失数据使得观测量不完整从而导致信息系统不确定等问题。很多传统的方法不仅会降低对信息的利用,还有可能造成无意义甚至错误的统计结果,难以对信息量进行有效统计。因此,在统计调查中,对于存在缺失数据的观测信息如何进行有效的利用,对统计分析和推断结果具有重要的意义。
服从正态分布的数据是统计调查中较为常见的数据,比如学生的智力、学习成绩;人类的身高;某个地区的降水量等都服从正态分布。但是在实际调查中缺失也是在所难免的,因此对存在缺失数据的正态分布进行研究是具有实际意义的。
针对不同类型的缺失数据,已有很多不同且成熟的处理方法。删除法与插补法是传统的处理方法。删除法会造成可利用的数据较少,所以会造成较大的标准误,导致影响统计结果的问题。虽然使用不同的插补方法对不同的类型的缺失数据进行处理也具有一定的实用性,但插补法会因为插补的数据对数据的客观性产生影响,而且当缺失率不同时,采用不同的处理缺失数据的方法其有效性也会不同。因此有学者提出在已知数据模型的前提下,使用似然函数来处理缺失数据。对于计算复杂不能直接极大化的数据类型,使用EM算法迭代不失为一个有效的方法。因此,分析EM算法是否适用于特定的数据模型及其算法的有效性具有实际意义。
国内外研究综述
国外研究综述
国外对于缺失数据的研究,Roderick 和 Little[2] (1986)就同一数据运用回归插补方法与热卡插补方法进行处理并对结果进行了分析和对比。HegminYounger等人(1988)运用多种插补方法对数据进行处理,也对结果进行了分析和对比。Paul D. Allison(2003)使用极大似然方法对存在缺失数据的结构方程模型进行处理,并与多重插补法作比较,得出两种方法均具有较好的统计特性。
EM(ExpectationMaximization)算法是Demptater等人于 1977 年提出来的求参数极大似然估计的有效的方法[3] 。国外就缺失数据的参数估计,H.K.T.Ng,P.S.Chan,N.Balakrishnan在2002年对威布尔分布和逐步缺失数据下对数正态分布进行了参数估计。这篇文章与NewtonRaphson 算法比较,得出 EM 算法的优势。国外对EM算法的相关研究多注重于算法的优化。
原文链接:http://www.jxszl.com/jsj/jsjkxyjs/562873.html