SEM的本质是什么?
路径分析、通径分析与SEM的关系是什么?
潜变量、复合变量是SEM必须的吗?
而涉及潜变量的参考文献相对较多,如James Grace作为共同作者的一篇:
K. C. Matteson, et al. 2013. Direct and indirect effects of land use on floral resources and flower-visiting insects across an urban landscape. Oikos, 122, 682-694.
潜变量在SEM的图示中要用椭圆来表示,如下图中的椭圆形变量即为这篇引文中的潜变量:
并未达到这种程度。事实上,SEM反映的仅仅是作者根据现有条件和数据构建的一种潜在的可能关系。这一点很可能受到作者本身认知和数据分析过程的影响。因此,尽管SEM在多变量关系的描述中具有一定优势,但这种认识主要是研究者主导的。
实际上目前现代统计学界也没有解决因果推断的问题。SEM中虽然用箭头方向指示了因果关系,但这种因果关系实际上是研究者人为判定和指定的。人们常常是在同一个时间点获取横断面数据,而这种情况下,各个变量之间的因果关系存在于人们的认知里的,或者说存在于已有的一些研究或经验里,在应用SEM时需要研究者指定出自变量与因变量。在分析时,横断面数据主要提供的是相关性信息。如一位老师所言:等到统计分析方法可以自动解决因果推断的时候,很可能各个学科的研究者都要失业了。因此,我们需要明确虽然SEM想要表达的主要是因果关系,但其在技术上并不能超越相关关系的范畴。
想要深入研究的朋友,可以了解下Judea Pearl、Bill Shipley等人,包括Judea Pearl的两本书,The book of why: The New Science of Cause and Effect、Causality: Models, Reasoning and Inference,以及Bill Shipley的Cause and correlation in Biology。虽然附上了这几本书,但实际上笔者目前并没有精力和能力看这些书,这是统计学的前沿问题,还要靠公众号的读者中更多有此能力和志向的大佬来为我们拓荒因果推断!
一个小问题:如果A与B相关,在没有限制的条件下,实际上A与B的关系可能包括哪些?A会导致B;B会导致A;C同时导致了A和B;A与B互为因果;A与B的相关是巧合。
什么时候应该用SEM?
总体而言,当想要研究复杂的多变量间因果关系时,使用SEM最为合适。尤其是想要阐述机制相关问题时,SEM能够较为直观地展现复杂的路径关系。使用SEM需要作者对多变量之间的关系有一定的认识。有一些方法如限制性排序分析(constrained ordination analysis)等也可以进行多变量关系的分析,但SEM从假设检验到结果表达等一系列步骤都更为清楚和直观。如果研究中没有涉及这种复杂的多变量关系,那SEM基本无用武之地。已经进行了SEM后,依然可以对部分变量进行单独的分析。
SEM的结果有哪些必备要素?
当前SEM有基本固定的形式,首先要有展示因果关系的图示,还要指出模型与数据的整体拟合情况(如适配度指数)、单个路径的显著性和相对作用的大小、被解释变量的R2等。
SEM在应用中存在哪些误区?
误用SEM较为常见。SEM虽然看起来简单,但有一些问题如样本量大小、非连续变量作为内生变量与外生变量如何纳入模型等,都较为麻烦。
笔者遇到最常见的往往是样本量不足的问题,即用很少的样本量构建了复杂的模型,这样就可能出现严重的过度拟合问题,即模型结果并不可信,包括顶尖期刊上也可能出现这种问题。因此,要想正确使用SEM,我们需对这个方法的原理有清楚的认识。
据笔者了解,目前SEM建模方法主要有三种。第一种,基于实际数据中变量间方差协方差矩阵和概念模型拟合的方差协方差矩阵的比较,对概念模型与实际数据的贴切程度进行评价的传统SEM方法。代表工具为lavaan包、Amos软件等。特点是可以容纳潜变量,但因变量需要满足多元正态分布。第二种,基于一种名为定向分离(d-separation)的方法首先对每个路径进行单独的估计,然后使用特定方法对模型中所有路径的状况进行评价,并寻找出可能的关键缺失路径。相对于传统方法,该方法是一种局部估计方法,其主要特点是因变量可以是非正态数据(如二项、泊松等)。代表工具为piecewiseSEM包。第三种,基于贝叶斯统计方法的SEM模型构建,特点是可以构建复杂的模型。代表工具为brms包等。
目前第一种和第二种还是SEM的主流方法,但随着贝叶斯统计逐渐不再被计算时间所限制,未来使用贝叶斯方法进行SEM建模的应用正在逐渐增多。此外,笔者想过一个方向是Meta分析与SEM的结合。由于Meta分析搜集数据时,不同来源的案例其数据存在精确性的差异,这时需要考虑数据的权重问题。此时如果想在Meta分析数据的基础上进行加权的SEM构建,lavaan、piecewiseSEM等好像目前都无法实现,而基于贝叶斯方法的SEM则在理论上可以实现这个任务。笔者的一点感受是,当前基于贝叶斯统计的Meta分析、SEM、混合模型等统计方法都在迅猛发展和大量应用中,顶级期刊使用贝叶斯统计的文章屡见不鲜,已呈山雨欲来之势。