论文部分内容阅读
纵向数据结合了截面数据和时间数据的特征,因而能够更好地分析出样本随时间变化的趋势,同时也能够更准确地反映出样本间的差异和样本内的变化.但是,如果研究时间过长,一些个体会中途退出等原因在个别的时刻这个个体没有得到测量结果,这样就导致数据的缺失。如果我们不能合理的处理这种缺失数据,那么得到的推断结果的可信度就会大大降低。如何处理这类数据,是一个很现实的问题。处理缺失纵向数据,必须考虑数据丢失模式和数据丢失机制,针对具体的数据的不同丢失模式和丢失机制采取相应的措施。本文的数据来源于Donald Hedeker等的一篇文章,分析医学上对吸毒者采取不同的戒毒措施效果的试验数据,针对原作者提出的三种补值方法:missing=smoking,last observation carriedforward(LOCF)and a little multiple imputation。自己根据试验设计和实际情况,先建立合理的图模型,在分析其可识别性之后,用EM算法编程对其缺失数据进行补值,然后返回试验背景,根据补值后的数据,观察戒毒时分组效果的显著性和baseline的影响,并与原文的结果进行对比,提出自己的观点。