导读
事件相关电位(ERP)数据的多变量分类分析是预测认知变量的强大工具。然而,分类通常仅限于分类变量,并未充分利用连续数据,如反应时间、反应力或主观评分。另一种方法是支持向量回归(SVR),它使用单试次数据来预测感兴趣的连续变量。在这篇教程式的文章中,研究者演示了如何在决策解码工具箱(DDTBOX)中实现SVR。为了更详细地说明结果如何取决于特定的工具箱设置和数据特征,本研究报告了两个模拟研究(类似于真实的EEG数据和真实的ERP数据集)的结果,并预测了一系列分析参数的连续变量。结果发现,SVR对于2-100ms的分析窗口有效,并且相对不受时间平均的影响。当只有少量通道编码真实信息时,预测仍然是成功的,并且分析对信号中相关信息的时间抖动具有鲁棒性。总之,本研究证明了线性SVR是研究与连续变量相关的单试次EEG数据的有力工具,并为用户提供了实用性指导。
前言
用于非侵入性获取神经成像数据的多变量分析技术(如EEG和MEG数据),具有高时间分辨率的特点,在认知神经科学研究中越来越受欢迎。特别是通过多变量模式分析(MVPA)使用分类器的优点是,与使用经典的单变量方法相比,它可以在给定时间点从信号中提取更多的信息。这可以让我们深入了解在非常短的时间尺度内,大脑活动模式代表了什么信息或认知过程,并可以揭示神经表征随时间的动态发展。
近年来,已经发布了一些工具箱,允许研究人员将这些技术应用于EEG/MEG数据,包括ADAM、CoSMoMVPA、DDTBOX、FieldTrip、MNE-Python、MVPA-Light和神经解码工具箱,并对fMRI的类似工具箱进行了补充。此外,还发表了一些教程式论文,为用户提供了实用的建议。
多变量模式分类器的一个重要约束是,它们仅限于预测分类变量,因为它们使用多变量信号将试次分配给不同的类。最近,人们对多变量M/EEG信号中连续变量的预测越来越感兴趣,而分类分析并不适用于此情况。例如,研究人员试图使用中值分割来区分连续变量的高值和低值,但这种方法通常会受到统计功效降低的影响。另一种方法是支持向量回归(SVR),可用于从单个试次数据中预测感兴趣的连续变量,例如反应时间、反应力、主观评分(情绪状态、效价等),以及任何与EEG模式相关的其他变量。如果人们对解码行为上有意义的连续变量感兴趣,而这些连续变量很难划分为不同的类别时,这种方法尤其有用。
本研究将描述决策解码工具箱(DDTBOX)中SVR的实现,该工具箱已越来越多地用于解码不同的认知过程,从低层视觉到高级抽象表征。本文的目的是首先为潜在用户提供关于使用SVR处理过(或能够处理)哪些类型的问题的背景信息,然后提供如何在工具箱中实施此类分析的实用指南。注意,本文并非旨在全面比较不同的多变量方法(例如,线性判别分析、随机森林分类),也不是为了证明一种方法优于另一种方法。相反,本研究重点关注DDTBOX中的特定实现上,它旨在为用户提供易于适应新研究问题的代码,以及包括所选择的数据参数和特征映射到认知神经科学研究中最常见的分析决策,用户可以从本研究提供的概述和分析中受益匪浅。
本文首先解释了在DDTBOX中进行SVR的一般原理,包括一些分析参数的简要概述,这些参数可以由用户自定义。这些包括a)分析中所包括的特征,即是进行空间分析还是时空分析;以及b)为试次中的滑动分析窗口选择适当的窗长,以捕获信号中的潜在信息。然后,简要回顾了使用SVR研究的认知过程类型。接下来,对模拟EEG数据进行分析,以展示关键参数改变时结果的变化。最后,为用户提供了如何在DDTBOX中根据自己的研究目的定制SVR的建议,并简要讨论了SVR的一般使用。
DDTBOX中的支持向量回归(SVR)分析
在DDTBOX中执行SVR分析
DDTBOX的最新版本(v1.0.5)允许用户执行支持向量机(SVM)分类,与LIBSVM或LIBLEAR接口,或执行支持向量回归(SVR;与LIBSVM接口)来分析EEG振幅数据(注意,它还可以用于分析其他格式,如频谱功率数据;但该选项尚未常规集成)。DDTBOX中默认实现的epsilon-insensitive线性SVR方法赋予了SVM的许多优点,可以基于EEG数据的多变量模式进行回归。与标准线性回归相比,在εSVR中,任何小于ε设定值的残差(误差)都将被忽略,只有大于该值的残值才决定回归模型的结构。
在运行SVR分析之前,以与经典ERP分析相同的方式对数据进行预处理。有人建议,对于MVPA而言,数据清理可以不那么严格,因为例如,噪声和非信息通道以及非系统伪影不会损害分类器,因为在分类过程中会为这些特征分配较低的权重;然而,我们更倾向于对数据应用与ERP分析相同的严格伪迹拒绝程序。这也可以使数据与经典ERP分析的结果进行全面比较。用户可能会选择执行电流源密度(CSD)分析作为最后的预处理步骤。此处不详细讨论该方法(也不对报告的数据执行)。简而言之,对于CSD分析,应用拉普拉斯滤波器将数据重参考到周围电极。这样做的好处是:数据独立于特定参考通道,并且每个通道的独特贡献被放大,同时数据中的冗余被衰减。有人建议使用类似的拉普拉斯滤波器来改进分类。由于减少了相邻电极位置信号的冗余,CSD信号的较高地形精度也有利于使用SVR进行模式分类分析。对于SVR,预处理的数据以以下格式导出到MATLAB数据矩阵中:通道×数据点×试次。第二个矩阵,以单列的形式包含每个试次(对应于EEG数据矩阵中包括的试次)的感兴趣变量。每个参与者的矩阵用作参与者内SVR的输入,以根据EEG振幅数据的分布模式预测感兴趣变量。
DDTBOX使用滑动窗口法,在分析时间窗口内分析试次数据(通常包含基线周期,并根据个别研究问题进行划分),该时间窗在整个试次中以小的(重叠或非重叠)步骤移动,每次都包含下一步的数据。也可以使用预定义的感兴趣时间段,但本文将重点讨论滑动窗口法。每个分析步骤/窗口都被视为一个独立的分析。在DDTBOX中,应用交叉验证程序,将试次随机分为不同的集合(例如,十个集合进行十折交叉验证)。除了一个数据集之外,所有数据集都用于训练,而独立的留一数据集用于测试训练后的回归模型对未知数据的泛化程度。通过使用每个数据集进行一次测试,同时对所有其他数据集进行独立训练,对交叉验证的每一折重复此过程。此外,DDTBOX允许实现整个交叉验证过程的多次迭代,每次都将试次重新随机排序为新的集合(DDTBOX中的默认值是十折交叉验证的十次迭代)。这一步骤增加了总体时间和计算处理成本,但它大大降低了数据初始排序过程中偶然产生的假阳性结果的概率。SVR为真实标签(即每个试次中兴趣变量的值)和预测标签(即兴趣变量的预测值)之间的相关性输出一个Fisher Z转换相关系数。所有交叉验证步骤的所有迭代的平均结果是最终输出,并分配给相应的分析时间窗口。然后对每个分析时间窗口的数据重复相同的分析,直到试次结束(即最后一个分析窗口)(图1)。
图1.支持向量回归的示意图。
注意,为了执行SVR,DDTBOX与LIBSVM交互。可以为SVR选择不同的内核,但本研究将专注于默认设置,大多数此类认知神经科学研究都使用该默认设置,即线性内核。LIBSVM还允许用户更改各种其他设置,如epsilon和cost参数,这里不做详细讨论。
然后将参与者的个人结果提交到组水平的统计测试。DDTBOX中的默认选项是根据同一时间窗的经验机会分布独立检验每个分析时间窗的结果,通过对每个参与者重复相同次数的相同交叉验证过程,获得完全相同的数据和相同的标签,唯一的区别是将标签分配给数据是随机化的。这构成了一种比理论机会水平测试更保守的方法,它允许控制数据中固有的任何偏差。然后,可以使用配对样本t检验或基于最小统计量的组水平分析方法来检验每个分析时间窗的解码结果的统计显著性。
DDTBOX中SVR的具体参数设置
为了初步设置SVR分析,DDTBOX首先需要用户修改一个MATLAB脚本,该脚本定义了特定数据集的所有输入参数(包括数据在计算机上的位置、通道数、采样率等),以及要执行的分析参数。
第一解码分析参数要求用户在空间、时间或时空SVR分析之间进行选择。这里将忽略时间分析,因为它没有利用信号的完整空间模式。时空分析和空间分析之间的区别在于,时空方法提取所有(或所有指定)通道的分析时间窗内的所有可用数据点作为特征(例如,如果数据以500Hz记录,分析时间窗口宽度为10ms,数据集包含64个通道,则有:5×64=320个特征)。另一方面,空间分析首先在此分析时间窗内对每个通道的数据点进行平均,结果是每个通道只有一个特征代表各自窗口中的每个通道的平均信号。
接下来,用户需要指定分析时间窗的宽度和在试次中移动的步长。如果两者相同,则分析时间窗口以非重叠的步长移动,而如果步长小于窗口宽度,则使用重叠的分析时间窗口,该窗口从部分相同的数据中采样。反过来,在解释时必须考虑这一点;但是为了本文的目的,这里将简单地使用10ms的步长。最常用的分析时间窗长范围从1个数据点(500Hz为2ms,1000Hz为1ms)到100ms。
用户还可以更改多个其他设置,包括在解码之前是否应该对数据进行归一化(默认设置是对数据进行归一化;归一化还可以大大减少计算时间),以及是否应提取特征权重。请参考工具箱Wiki了解更多详细信息(https://github.com/DDTBOX/DDTBOX/wiki)。如上所述,组水平分析脚本还允许为统计检验选择不同的选项,但本研究着重关注使用一系列配对样本t检验的标准组水平统计检验,并使用基于聚类质量统计的聚类置换检验进行多重比较校正。
方法
所有SVR数据分析均使用DDTBOX 1.0.5版本进行。对于食物属性解码研究,首先使用EEGLab v13.4.4b进行数据预处理。这两个工具箱都在Matlab 2018b(Mathworks)中运行。使用bisemi Active II系统记录食物属性解码研究中的电生理活动,该系统有64个通道,采样率为512Hz,记录带宽为DC-102Hz。对模拟研究1和模拟研究2进行SVR分析。
模拟研究1:SVR分析类型和分析窗长
数据
模拟研究中使用的所有代码和数据可在https://osf.io/ef4an/上获得。对于每种条件,模拟了37个数据集(与Schubert等人(2021)的研究样本量相匹配,并使用相同的程序进行分析),包括100个时间段(-100到1000ms)。通道数为64,采样率为500Hz。为了在EEG信号中产生噪声,对于每个通道和每个试次,将1-40Hz(步长为0.1Hz)之间的多个随机相位正弦波信号相加。对每个正弦波的振幅进行缩放,这样频率越高的振幅越小。该时间段的前100ms被视为刺激前基线,并使用这100ms基线的平均振幅对产生的时间段进行基线校正。该方法被用于施加一定程度的时间自相关,就如同在真实EEG数据中的那样;然而,通过在每个时间点独立生成高斯噪声也可以获得类似的结果。
除了噪声之外,还系统地在特定时间段内将信号添加到8个通道中。信号是通过在8个特定通道的噪声中添加高斯曲线而生成的。高斯的峰值(即最大振幅的时间点)位于距离刺激开始400ms处。高斯标准差为20ms,这意味着95%的附加信号位于峰值时间点的±40ms内。在每个试次中,信号的峰值振幅(即高斯的高度)随连续变量的值线性缩放,该变量包含SVR条件标签。为了模拟EEG信号的时间变异性,研究者进一步根据boxcar分布改变了试次中高斯形状信号的峰值时间点。选择了±30ms的抖动,这意味着给定试次中的信号高斯峰值同样可能出现在370-430ms之间。通过从平均值为0、标准差为1的高斯分布中随机抽取,生成包括SVR条件标签的连续值。在DDTBOX中使用SVR分析的各种设置,以根据多变量数据预测连续变量。
SVR分析
使用DDTBOX(v1.0.5)中的线性SVR,接口LIBSVM(使用默认设置:epsilon-insensitive SVR算法;cost参数C=0.1)。分别应用A)空间SVR和B)时空SVR分析数据。在每个分析流中,分别使用不同的分析窗长(2ms、10ms、20ms、50ms和100ms)运行所有分析。2ms分析时间窗相当于一个数据点。由于这是可能的最小分析窗长,它自然无法包含分析窗口内的时间信息(因此被视作空间分析)。表1显示了不同的分析条件。
表1.用于模拟研究1和2的数据生成和解码分析设置。
为了简化参数空间,始终使用10ms的步长来移动分析时间窗口(注意,2ms的分析窗口需要2ms的步长,以避免产生信息时间过程中的间隙)。运行了十折交叉验证的标准十次迭代。对于统计检验,基于聚类质量统计(5000次置换迭代,聚类形成ɑ=0.05),在p<0.05时应用了基于聚类的置换检验。分组结果表示预测标签和真实标签之间的非概率Fisher-Z转换相关性,即解码性能。
模拟研究2:信息通道数量和时间方差
数据
每个实验条件的数据集的生成方法与模拟研究1相同,再次使用N=37个具有相同属性的数据集。在本研究中,研究者测试了四种条件,其中包含两个实验因素的可能组合:①包含信号的通道数(低:8个通道;高:16个通道)和②信号在这些通道中跨时间分布时的抖动(小:15个数据点/±30ms;大:30个数据点/±60ms,同模拟研究1中的boxcar分布)。再次在DDTBOX中应用线性SVR来分别分析所有实验条件。
SVR分析
分析管道和参数与模拟研究1相同。唯一的区别是,这里只使用空间SVR,同样采用2ms、10ms、20ms、50ms和100ms的时间窗长(最小窗长的步长为2ms,所有其他窗长的步长为10ms)。在p<0.05处,再次采用基于聚类的置换检验进行组水平统计检验(5000次置换迭代,聚类形成α=0.05),以控制多重比较。
食物属性ERP解码实验
接下来,研究者重新分析了之前发表的一项实验(Schubert等人2021的实验),在该实验中,参与者对视觉呈现的食物的美味程度和健康程度进行了明确的评级,同时记录64通道的EEG。从该原始实验报告的分析中可以了解到,使用20ms分析窗口的时空SVR进行解码是成功的。在这里,研究者使用与模拟研究1中相同的参数重新分析了数据,即结合2ms、10ms、20ms、50ms和100ms分析时间窗,使用空间和时空线性SVR进行分析。这有助于将模拟研究结果与真实EEG研究的结果进行定性比较,因为在真实的EEG研究中,信号的特性(例如,信息通道和信号抖动的程度)是未知的。
参与者
研究招募了39名参与者,均为右利手,英语书写和口语流利,视力正常或矫正至正常,没有特殊饮食限制或进食障碍史。两名参与者的数据由于过于嘈杂被排除在外。最终样本为37名参与者,年龄为18~36岁(M=24.08岁,SD=4.74;29名女性,8名男性)。参与者在参与实验前签署了书面知情同意书,该实验得到墨尔本大学人类研究伦理委员会(ID1955772)的批准,并根据《赫尔辛基宣言》进行。
刺激
刺激由来自食物图片数据库(Food-Pics)的174张食物图片组成(如水果、蔬菜、巧克力、鱼、肉、坚果、零食/膳食-甜味和咸味,以及具有广泛感知美味的图片)。有关完整的图像选择程序、问卷调查以及更详细的程序说明,请参阅Schubert等人2021的文章。
脑电图预处理
使用BioSemi Active II系统记录电生理活动,该系统具有64个通道,采样率为512Hz,记录带宽为DC-102Hz。根据国际10-20系统,将64个Ag/AgC1电极连接到脑电帽上,在左眼的旁边和下面(记录水平和垂直眼电)以及双侧乳突上添加了四个额外电极。电极偏移量保持在±50μV以内。使用EEGLab v14.1.2,首先将数据转换为双侧乳突平均重参考,然后进行高通(0.1Hz)和低通(30Hz)滤波(EEGLab FIR Filter New,默认设置)。以图片呈现前100ms到图片呈现后1000ms这个时间段对试次进行分段。通过目测识别并去除包含肌肉和皮肤电伪影的段。使用球面样条插值噪声通道。在EEGLab函数中使用独立成分分析(ICA)识别和去除眼动、眼跳和眨眼等伪迹。任何通道中振幅超过±150μV的段都被排除在分析之外。
线性SVR
对于每个分析,使用DDTBOX接口LIBSVM(默认设置:epsilon-insensitive SVR算法;cost参数C=0.1)估计多元回归模型,根据神经数据预测评分。十折交叉验证过程的所有十次迭代的平均结果是评级(即标签)和预测标签之间相关性的Fisher-Z变换相关系数。与模拟研究1一样,分别使用空间SVR和时空SVR进行该分析。使用2ms、10ms、20ms、50ms和100ms的分析时间窗,在试次中以10ms的步长移动(同样,对于2ms的分析时间窗,使用2ms的步长)。使用配对样本t检验,在组水平上检验每个分析时间窗的结果与经验机会结果分布的统计显著性,并使用基于聚类的置换检验进行多重比较校正。
结果
模拟研究1
模拟研究1的结果表明,使用所有分析时间窗长的所有空间SVR分析都可以用于成功识别信号出现的时间段(图2)。使用所有时间窗长的所有时空分析也是如此。结果表明,与空间SVR分析相比,使用时空SVR分析没有明显优势。感兴趣的变量可以使用任何分析时间窗口进行解码,包括最短的时间窗,每个分析窗口每个通道仅包含一个数据点。不同分析方法之间的平均解码性能没有差异。然而,对于空间和时空SVR,存在一些时间拖尾效应,这意味着随着分析窗长的增加,试次早期的时间窗口变得显著。重要的是,这并没有反映出对信息的更高敏感性。这是由于构建分析时间窗口的方式导致的:DDTBOX根据包含的最早时间点定义窗口,并将窗口从时间段开始移动到时间段结束。因此,当预测信息被包含在窗口的尾端时,在时间段中移动的任何分析时间窗口都变得很重要。这意味着,对于不区分窗口内信息的较长窗口,真实信息实际上位于窗口的后面(即靠后的时间点)。这原则上可以通过分析详细的特征权重结构(包括通道和时间点作为特征)来控制;然而,正如本研究所示,可以通过使用更短的分析窗口来完全避免这种情况。
图2.模拟研究1中使用空间SVR(左侧)和时空SVR(右侧)时的解码性能,窗长分别为2、10、20、50和100ms。蓝线表示使用原始数据的解码性能;橙线表示使用置换数据的解码性能。阴影区域表示均值标准误(SEM)。粉色阴影区域表示统计上显著高于概率解码精度的时间窗。
模拟研究2
模拟研究2的结果再次证明,可以使用空间SVR在所有分析窗长的所有实验条件下解码感兴趣变量(图3显示了10ms和100ms的分析窗长)。对于较短的分析窗口(2ms、10ms、20ms),解码结果的准确性和时间扩展同样具有高度可比性,这些分析窗口都准确地恢复了信息信号的潜在时间过程。当使用更长的分析时间窗时,特别是对于100ms的分析窗时,可以发现信息在较早的时间点出现了相同的时间拖尾。
正如预期的那样,随着信息通道的减少,解码精度明显降低;然而,仍然有可能显著地(高于概率)预测兴趣变量。在这些通道的信息分布中引入时间抖动进一步降低了解码性能,并导致解码结果在时间上的预期时间拖尾。值得注意的是,抖动并不妨碍对任何分析时间窗口的信息检测。
图3.模拟研究2中使用空间SVR时的解码性能,窗长为10ms(上半部分)和100ms(下半部分)。蓝线表示使用原始数据的解码性能,橙线表示使用置换数据的解码性能。阴影区域表示均值标准误(SEM)。
食物属性ERP解码实验
味觉等级解码。使用空间SVR,味觉评分明显高于所有分析时间窗长的概率预测(图4,左侧)。在所有分析时间窗中,信息时间过程的总体形状也非常相似,这证实了该方法对真实数据的鲁棒性。2ms和10ms窗口的信息时间过程看起来非常相似,时间过程再次用20-100ms的更大窗口宽度进行平滑。这也意味着,随着窗长的增加,独立的显著聚类合并为更大的聚类,这是意料之中的,因为连续分析是从窗口宽度更大的重叠数据部分中采样的。从图中可以看出,在分析窗口宽度设置之间,精确的显著聚类略有不同。再次以更大的窗口宽度在时间上系统地向前传播,10ms的分析时间窗口从540ms开始,100ms的分析时间窗口从470ms开始。对于100ms的窗口宽度,该窗口包括470到570ms之间的数据,这意味着该窗口的尾端很可能包含了足够的信号,从而使分析变得重要。当使用时空SVR时,对于所有分析时间窗长,味觉评分再次显著高于概率预测(图4,右侧)。所有时空分析时间窗的信息时间过程的总体形状与其空间SVR对应信息高度相似,这种相似性在较小的分析时间窗中最强,特别是在10ms时。与空间分析相比,使用时空分析没有优势。无论窗长如何,与空间SVR相比,时空SVR的结果在参与者数据集中略低,且变化更大。
图4.SVR味觉等级解码结果。左侧和右侧分别为空间和时空解码分析结果。
健康等级解码。使用空间SVR,健康评分在所有分析时间窗(图5,左侧)上的预测也显著高于概率水平,尽管总体信息时间过程比味觉评分更嘈杂。信息时间过程的总体形状在所有分析时间窗之间是相似的,并且与之前一样,随着窗口宽度的增加,信息时间过程变得更加平滑,对于50ms和100ms的分析窗口,最初的两个独立的显著簇合并为一个。我们可以看到,聚类是否显著(在应用了严格的基于聚类的校正后)取决于所使用的分析时间窗口宽度。对于时空SVR,与来自空间SVR的信息时间过程相比,没有实质性的差异,特别是对于短的10ms窗口宽度(图5,右侧)。当分析窗口宽度为20ms时,与空间SVR相比,时空SVR显示出更大的显著聚类,而对于50ms的窗口,则相反,空间SVR比时空SVR出现了略大的显著聚类。在100ms的分析窗口下,与空间SVR相比,时空SVR的显著聚类更大。
图5.SVR健康等级解码结果。左侧和右侧分别为空间和时空解码分析结果。
总之,这些结果表明,这两个刺激维度的结果大体上相似。然而,就特定的时间步长而言,空间SVR在某些情况下略好,而在其他情况下,时空SVR稍优一些,这些细微的差异也因分析时间窗的宽度而略有不同。
结论
支持向量回归(SVR)是一种强大但未被充分利用的多变量M/EEG数据分析方法,但目前仍缺乏系统验证和全面描述。尽管分类技术仅限于预测分类变量(即类),但DDTBOX中实现的SVR可以从EEG数据中预测连续变量的信息。在这里,研究者使用了真实和模拟的EEG数据来证明其有效性,以帮助研究人员决定如何在DDTBOX中为他们的特定研究问题定制SVR,从而从EEG测量的ERP的多变量模式中预测感兴趣的连续变量。为了帮助用户更好地理解不同参数设置的效果,本研究进行了一系列的分析。这些表明SVR分析可以预测模拟和真实EEG数据中的连续变量。空间和时空SVR的结果非常相似,并且在各种分析时间窗口宽度上都很稳定,即使是每个通道只包含一个数据点的非常短的分析窗口。当分析时间窗较大时,会出现一些时间拖尾。即使在信息通道数量较少、时域信号抖动较大的情况下,SVR也能成功预测感兴趣的变量。这些结果以及先前发表的成功预测各种连续变量的证据表明,SVR是一种有用的数据驱动分析方法,它允许从高时间分辨率的神经活动分布模式中预测感兴趣变量的细微变化。总之,本研究希望为用户提供有价值的资源,以优化用户在自己数据中的SVR分析。
原文:Decoding continuous variables from event-related potential (ERP) data with linear support vector regression (SVR) using the Decision Decoding Toolbox (DDTBOX).
Doi: 10.3389/fnins.2022.989589
小伙伴们点个“在看”,加
(星标)关注茗创科技,将第一时间收到精彩内容推送哦~
事件相关电位(ERP)数据的多变量分类分析是预测认知变量的强大工具。然而,分类通常仅限于分类变量,并未充分利用连续数据,如反应时间、反应力或主观评分。另一种方法是支持向量回归(SVR),它使用单试次数据来预测感兴趣的连续变量。在这篇教程式的文章中,研究者演示了如何在决策解码工具箱(DDTBOX)中实现SVR。为了更详细地说明结果如何取决于特定的工具箱设置和数据特征,本研究报告了两个模拟研究(类似于真实的EEG数据和真实的ERP数据集)的结果,并预测了一系列分析参数的连续变量。结果发现,SVR对于2-100ms的分析窗口有效,并且相对不受时间平均的影响。当只有少量通道编码真实信息时,预测仍然是成功的,并且分析对信号中相关信息的时间抖动具有鲁棒性。总之,本研究证明了线性SVR是研究与连续变量相关的单试次EEG数据的有力工具,并为用户提供了实用性指导。
前言
用于非侵入性获取神经成像数据的多变量分析技术(如EEG和MEG数据),具有高时间分辨率的特点,在认知神经科学研究中越来越受欢迎。特别是通过多变量模式分析(MVPA)使用分类器的优点是,与使用经典的单变量方法相比,它可以在给定时间点从信号中提取更多的信息。这可以让我们深入了解在非常短的时间尺度内,大脑活动模式代表了什么信息或认知过程,并可以揭示神经表征随时间的动态发展。
近年来,已经发布了一些工具箱,允许研究人员将这些技术应用于EEG/MEG数据,包括ADAM、CoSMoMVPA、DDTBOX、FieldTrip、MNE-Python、MVPA-Light和神经解码工具箱,并对fMRI的类似工具箱进行了补充。此外,还发表了一些教程式论文,为用户提供了实用的建议。
多变量模式分类器的一个重要约束是,它们仅限于预测分类变量,因为它们使用多变量信号将试次分配给不同的类。最近,人们对多变量M/EEG信号中连续变量的预测越来越感兴趣,而分类分析并不适用于此情况。例如,研究人员试图使用中值分割来区分连续变量的高值和低值,但这种方法通常会受到统计功效降低的影响。另一种方法是支持向量回归(SVR),可用于从单个试次数据中预测感兴趣的连续变量,例如反应时间、反应力、主观评分(情绪状态、效价等),以及任何与EEG模式相关的其他变量。如果人们对解码行为上有意义的连续变量感兴趣,而这些连续变量很难划分为不同的类别时,这种方法尤其有用。
本研究将描述决策解码工具箱(DDTBOX)中SVR的实现,该工具箱已越来越多地用于解码不同的认知过程,从低层视觉到高级抽象表征。本文的目的是首先为潜在用户提供关于使用SVR处理过(或能够处理)哪些类型的问题的背景信息,然后提供如何在工具箱中实施此类分析的实用指南。注意,本文并非旨在全面比较不同的多变量方法(例如,线性判别分析、随机森林分类),也不是为了证明一种方法优于另一种方法。相反,本研究重点关注DDTBOX中的特定实现上,它旨在为用户提供易于适应新研究问题的代码,以及包括所选择的数据参数和特征映射到认知神经科学研究中最常见的分析决策,用户可以从本研究提供的概述和分析中受益匪浅。
本文首先解释了在DDTBOX中进行SVR的一般原理,包括一些分析参数的简要概述,这些参数可以由用户自定义。这些包括a)分析中所包括的特征,即是进行空间分析还是时空分析;以及b)为试次中的滑动分析窗口选择适当的窗长,以捕获信号中的潜在信息。然后,简要回顾了使用SVR研究的认知过程类型。接下来,对模拟EEG数据进行分析,以展示关键参数改变时结果的变化。最后,为用户提供了如何在DDTBOX中根据自己的研究目的定制SVR的建议,并简要讨论了SVR的一般使用。
DDTBOX中的支持向量回归(SVR)分析
在DDTBOX中执行SVR分析
DDTBOX的最新版本(v1.0.5)允许用户执行支持向量机(SVM)分类,与LIBSVM或LIBLEAR接口,或执行支持向量回归(SVR;与LIBSVM接口)来分析EEG振幅数据(注意,它还可以用于分析其他格式,如频谱功率数据;但该选项尚未常规集成)。DDTBOX中默认实现的epsilon-insensitive线性SVR方法赋予了SVM的许多优点,可以基于EEG数据的多变量模式进行回归。与标准线性回归相比,在εSVR中,任何小于ε设定值的残差(误差)都将被忽略,只有大于该值的残值才决定回归模型的结构。
在运行SVR分析之前,以与经典ERP分析相同的方式对数据进行预处理。有人建议,对于MVPA而言,数据清理可以不那么严格,因为例如,噪声和非信息通道以及非系统伪影不会损害分类器,因为在分类过程中会为这些特征分配较低的权重;然而,我们更倾向于对数据应用与ERP分析相同的严格伪迹拒绝程序。这也可以使数据与经典ERP分析的结果进行全面比较。用户可能会选择执行电流源密度(CSD)分析作为最后的预处理步骤。此处不详细讨论该方法(也不对报告的数据执行)。简而言之,对于CSD分析,应用拉普拉斯滤波器将数据重参考到周围电极。这样做的好处是:数据独立于特定参考通道,并且每个通道的独特贡献被放大,同时数据中的冗余被衰减。有人建议使用类似的拉普拉斯滤波器来改进分类。由于减少了相邻电极位置信号的冗余,CSD信号的较高地形精度也有利于使用SVR进行模式分类分析。对于SVR,预处理的数据以以下格式导出到MATLAB数据矩阵中:通道×数据点×试次。第二个矩阵,以单列的形式包含每个试次(对应于EEG数据矩阵中包括的试次)的感兴趣变量。每个参与者的矩阵用作参与者内SVR的输入,以根据EEG振幅数据的分布模式预测感兴趣变量。
DDTBOX使用滑动窗口法,在分析时间窗口内分析试次数据(通常包含基线周期,并根据个别研究问题进行划分),该时间窗在整个试次中以小的(重叠或非重叠)步骤移动,每次都包含下一步的数据。也可以使用预定义的感兴趣时间段,但本文将重点讨论滑动窗口法。每个分析步骤/窗口都被视为一个独立的分析。在DDTBOX中,应用交叉验证程序,将试次随机分为不同的集合(例如,十个集合进行十折交叉验证)。除了一个数据集之外,所有数据集都用于训练,而独立的留一数据集用于测试训练后的回归模型对未知数据的泛化程度。通过使用每个数据集进行一次测试,同时对所有其他数据集进行独立训练,对交叉验证的每一折重复此过程。此外,DDTBOX允许实现整个交叉验证过程的多次迭代,每次都将试次重新随机排序为新的集合(DDTBOX中的默认值是十折交叉验证的十次迭代)。这一步骤增加了总体时间和计算处理成本,但它大大降低了数据初始排序过程中偶然产生的假阳性结果的概率。SVR为真实标签(即每个试次中兴趣变量的值)和预测标签(即兴趣变量的预测值)之间的相关性输出一个Fisher Z转换相关系数。所有交叉验证步骤的所有迭代的平均结果是最终输出,并分配给相应的分析时间窗口。然后对每个分析时间窗口的数据重复相同的分析,直到试次结束(即最后一个分析窗口)(图1)。
图1.支持向量回归的示意图。
注意,为了执行SVR,DDTBOX与LIBSVM交互。可以为SVR选择不同的内核,但本研究将专注于默认设置,大多数此类认知神经科学研究都使用该默认设置,即线性内核。LIBSVM还允许用户更改各种其他设置,如epsilon和cost参数,这里不做详细讨论。
然后将参与者的个人结果提交到组水平的统计测试。DDTBOX中的默认选项是根据同一时间窗的经验机会分布独立检验每个分析时间窗的结果,通过对每个参与者重复相同次数的相同交叉验证过程,获得完全相同的数据和相同的标签,唯一的区别是将标签分配给数据是随机化的。这构成了一种比理论机会水平测试更保守的方法,它允许控制数据中固有的任何偏差。然后,可以使用配对样本t检验或基于最小统计量的组水平分析方法来检验每个分析时间窗的解码结果的统计显著性。
DDTBOX中SVR的具体参数设置
为了初步设置SVR分析,DDTBOX首先需要用户修改一个MATLAB脚本,该脚本定义了特定数据集的所有输入参数(包括数据在计算机上的位置、通道数、采样率等),以及要执行的分析参数。
第一解码分析参数要求用户在空间、时间或时空SVR分析之间进行选择。这里将忽略时间分析,因为它没有利用信号的完整空间模式。时空分析和空间分析之间的区别在于,时空方法提取所有(或所有指定)通道的分析时间窗内的所有可用数据点作为特征(例如,如果数据以500Hz记录,分析时间窗口宽度为10ms,数据集包含64个通道,则有:5×64=320个特征)。另一方面,空间分析首先在此分析时间窗内对每个通道的数据点进行平均,结果是每个通道只有一个特征代表各自窗口中的每个通道的平均信号。
接下来,用户需要指定分析时间窗的宽度和在试次中移动的步长。如果两者相同,则分析时间窗口以非重叠的步长移动,而如果步长小于窗口宽度,则使用重叠的分析时间窗口,该窗口从部分相同的数据中采样。反过来,在解释时必须考虑这一点;但是为了本文的目的,这里将简单地使用10ms的步长。最常用的分析时间窗长范围从1个数据点(500Hz为2ms,1000Hz为1ms)到100ms。
用户还可以更改多个其他设置,包括在解码之前是否应该对数据进行归一化(默认设置是对数据进行归一化;归一化还可以大大减少计算时间),以及是否应提取特征权重。请参考工具箱Wiki了解更多详细信息(https://github.com/DDTBOX/DDTBOX/wiki)。如上所述,组水平分析脚本还允许为统计检验选择不同的选项,但本研究着重关注使用一系列配对样本t检验的标准组水平统计检验,并使用基于聚类质量统计的聚类置换检验进行多重比较校正。
方法
所有SVR数据分析均使用DDTBOX 1.0.5版本进行。对于食物属性解码研究,首先使用EEGLab v13.4.4b进行数据预处理。这两个工具箱都在Matlab 2018b(Mathworks)中运行。使用bisemi Active II系统记录食物属性解码研究中的电生理活动,该系统有64个通道,采样率为512Hz,记录带宽为DC-102Hz。对模拟研究1和模拟研究2进行SVR分析。
模拟研究1:SVR分析类型和分析窗长
数据
模拟研究中使用的所有代码和数据可在https://osf.io/ef4an/上获得。对于每种条件,模拟了37个数据集(与Schubert等人(2021)的研究样本量相匹配,并使用相同的程序进行分析),包括100个时间段(-100到1000ms)。通道数为64,采样率为500Hz。为了在EEG信号中产生噪声,对于每个通道和每个试次,将1-40Hz(步长为0.1Hz)之间的多个随机相位正弦波信号相加。对每个正弦波的振幅进行缩放,这样频率越高的振幅越小。该时间段的前100ms被视为刺激前基线,并使用这100ms基线的平均振幅对产生的时间段进行基线校正。该方法被用于施加一定程度的时间自相关,就如同在真实EEG数据中的那样;然而,通过在每个时间点独立生成高斯噪声也可以获得类似的结果。
除了噪声之外,还系统地在特定时间段内将信号添加到8个通道中。信号是通过在8个特定通道的噪声中添加高斯曲线而生成的。高斯的峰值(即最大振幅的时间点)位于距离刺激开始400ms处。高斯标准差为20ms,这意味着95%的附加信号位于峰值时间点的±40ms内。在每个试次中,信号的峰值振幅(即高斯的高度)随连续变量的值线性缩放,该变量包含SVR条件标签。为了模拟EEG信号的时间变异性,研究者进一步根据boxcar分布改变了试次中高斯形状信号的峰值时间点。选择了±30ms的抖动,这意味着给定试次中的信号高斯峰值同样可能出现在370-430ms之间。通过从平均值为0、标准差为1的高斯分布中随机抽取,生成包括SVR条件标签的连续值。在DDTBOX中使用SVR分析的各种设置,以根据多变量数据预测连续变量。
SVR分析
使用DDTBOX(v1.0.5)中的线性SVR,接口LIBSVM(使用默认设置:epsilon-insensitive SVR算法;cost参数C=0.1)。分别应用A)空间SVR和B)时空SVR分析数据。在每个分析流中,分别使用不同的分析窗长(2ms、10ms、20ms、50ms和100ms)运行所有分析。2ms分析时间窗相当于一个数据点。由于这是可能的最小分析窗长,它自然无法包含分析窗口内的时间信息(因此被视作空间分析)。表1显示了不同的分析条件。
表1.用于模拟研究1和2的数据生成和解码分析设置。
为了简化参数空间,始终使用10ms的步长来移动分析时间窗口(注意,2ms的分析窗口需要2ms的步长,以避免产生信息时间过程中的间隙)。运行了十折交叉验证的标准十次迭代。对于统计检验,基于聚类质量统计(5000次置换迭代,聚类形成ɑ=0.05),在p<0.05时应用了基于聚类的置换检验。分组结果表示预测标签和真实标签之间的非概率Fisher-Z转换相关性,即解码性能。
模拟研究2:信息通道数量和时间方差
数据
每个实验条件的数据集的生成方法与模拟研究1相同,再次使用N=37个具有相同属性的数据集。在本研究中,研究者测试了四种条件,其中包含两个实验因素的可能组合:①包含信号的通道数(低:8个通道;高:16个通道)和②信号在这些通道中跨时间分布时的抖动(小:15个数据点/±30ms;大:30个数据点/±60ms,同模拟研究1中的boxcar分布)。再次在DDTBOX中应用线性SVR来分别分析所有实验条件。
SVR分析
分析管道和参数与模拟研究1相同。唯一的区别是,这里只使用空间SVR,同样采用2ms、10ms、20ms、50ms和100ms的时间窗长(最小窗长的步长为2ms,所有其他窗长的步长为10ms)。在p<0.05处,再次采用基于聚类的置换检验进行组水平统计检验(5000次置换迭代,聚类形成α=0.05),以控制多重比较。
食物属性ERP解码实验
接下来,研究者重新分析了之前发表的一项实验(Schubert等人2021的实验),在该实验中,参与者对视觉呈现的食物的美味程度和健康程度进行了明确的评级,同时记录64通道的EEG。从该原始实验报告的分析中可以了解到,使用20ms分析窗口的时空SVR进行解码是成功的。在这里,研究者使用与模拟研究1中相同的参数重新分析了数据,即结合2ms、10ms、20ms、50ms和100ms分析时间窗,使用空间和时空线性SVR进行分析。这有助于将模拟研究结果与真实EEG研究的结果进行定性比较,因为在真实的EEG研究中,信号的特性(例如,信息通道和信号抖动的程度)是未知的。
参与者
研究招募了39名参与者,均为右利手,英语书写和口语流利,视力正常或矫正至正常,没有特殊饮食限制或进食障碍史。两名参与者的数据由于过于嘈杂被排除在外。最终样本为37名参与者,年龄为18~36岁(M=24.08岁,SD=4.74;29名女性,8名男性)。参与者在参与实验前签署了书面知情同意书,该实验得到墨尔本大学人类研究伦理委员会(ID1955772)的批准,并根据《赫尔辛基宣言》进行。
刺激
刺激由来自食物图片数据库(Food-Pics)的174张食物图片组成(如水果、蔬菜、巧克力、鱼、肉、坚果、零食/膳食-甜味和咸味,以及具有广泛感知美味的图片)。有关完整的图像选择程序、问卷调查以及更详细的程序说明,请参阅Schubert等人2021的文章。
脑电图预处理
使用BioSemi Active II系统记录电生理活动,该系统具有64个通道,采样率为512Hz,记录带宽为DC-102Hz。根据国际10-20系统,将64个Ag/AgC1电极连接到脑电帽上,在左眼的旁边和下面(记录水平和垂直眼电)以及双侧乳突上添加了四个额外电极。电极偏移量保持在±50μV以内。使用EEGLab v14.1.2,首先将数据转换为双侧乳突平均重参考,然后进行高通(0.1Hz)和低通(30Hz)滤波(EEGLab FIR Filter New,默认设置)。以图片呈现前100ms到图片呈现后1000ms这个时间段对试次进行分段。通过目测识别并去除包含肌肉和皮肤电伪影的段。使用球面样条插值噪声通道。在EEGLab函数中使用独立成分分析(ICA)识别和去除眼动、眼跳和眨眼等伪迹。任何通道中振幅超过±150μV的段都被排除在分析之外。
线性SVR
对于每个分析,使用DDTBOX接口LIBSVM(默认设置:epsilon-insensitive SVR算法;cost参数C=0.1)估计多元回归模型,根据神经数据预测评分。十折交叉验证过程的所有十次迭代的平均结果是评级(即标签)和预测标签之间相关性的Fisher-Z变换相关系数。与模拟研究1一样,分别使用空间SVR和时空SVR进行该分析。使用2ms、10ms、20ms、50ms和100ms的分析时间窗,在试次中以10ms的步长移动(同样,对于2ms的分析时间窗,使用2ms的步长)。使用配对样本t检验,在组水平上检验每个分析时间窗的结果与经验机会结果分布的统计显著性,并使用基于聚类的置换检验进行多重比较校正。
结果
模拟研究1
模拟研究1的结果表明,使用所有分析时间窗长的所有空间SVR分析都可以用于成功识别信号出现的时间段(图2)。使用所有时间窗长的所有时空分析也是如此。结果表明,与空间SVR分析相比,使用时空SVR分析没有明显优势。感兴趣的变量可以使用任何分析时间窗口进行解码,包括最短的时间窗,每个分析窗口每个通道仅包含一个数据点。不同分析方法之间的平均解码性能没有差异。然而,对于空间和时空SVR,存在一些时间拖尾效应,这意味着随着分析窗长的增加,试次早期的时间窗口变得显著。重要的是,这并没有反映出对信息的更高敏感性。这是由于构建分析时间窗口的方式导致的:DDTBOX根据包含的最早时间点定义窗口,并将窗口从时间段开始移动到时间段结束。因此,当预测信息被包含在窗口的尾端时,在时间段中移动的任何分析时间窗口都变得很重要。这意味着,对于不区分窗口内信息的较长窗口,真实信息实际上位于窗口的后面(即靠后的时间点)。这原则上可以通过分析详细的特征权重结构(包括通道和时间点作为特征)来控制;然而,正如本研究所示,可以通过使用更短的分析窗口来完全避免这种情况。
图2.模拟研究1中使用空间SVR(左侧)和时空SVR(右侧)时的解码性能,窗长分别为2、10、20、50和100ms。蓝线表示使用原始数据的解码性能;橙线表示使用置换数据的解码性能。阴影区域表示均值标准误(SEM)。粉色阴影区域表示统计上显著高于概率解码精度的时间窗。
模拟研究2
模拟研究2的结果再次证明,可以使用空间SVR在所有分析窗长的所有实验条件下解码感兴趣变量(图3显示了10ms和100ms的分析窗长)。对于较短的分析窗口(2ms、10ms、20ms),解码结果的准确性和时间扩展同样具有高度可比性,这些分析窗口都准确地恢复了信息信号的潜在时间过程。当使用更长的分析时间窗时,特别是对于100ms的分析窗时,可以发现信息在较早的时间点出现了相同的时间拖尾。
正如预期的那样,随着信息通道的减少,解码精度明显降低;然而,仍然有可能显著地(高于概率)预测兴趣变量。在这些通道的信息分布中引入时间抖动进一步降低了解码性能,并导致解码结果在时间上的预期时间拖尾。值得注意的是,抖动并不妨碍对任何分析时间窗口的信息检测。
图3.模拟研究2中使用空间SVR时的解码性能,窗长为10ms(上半部分)和100ms(下半部分)。蓝线表示使用原始数据的解码性能,橙线表示使用置换数据的解码性能。阴影区域表示均值标准误(SEM)。
食物属性ERP解码实验
味觉等级解码。使用空间SVR,味觉评分明显高于所有分析时间窗长的概率预测(图4,左侧)。在所有分析时间窗中,信息时间过程的总体形状也非常相似,这证实了该方法对真实数据的鲁棒性。2ms和10ms窗口的信息时间过程看起来非常相似,时间过程再次用20-100ms的更大窗口宽度进行平滑。这也意味着,随着窗长的增加,独立的显著聚类合并为更大的聚类,这是意料之中的,因为连续分析是从窗口宽度更大的重叠数据部分中采样的。从图中可以看出,在分析窗口宽度设置之间,精确的显著聚类略有不同。再次以更大的窗口宽度在时间上系统地向前传播,10ms的分析时间窗口从540ms开始,100ms的分析时间窗口从470ms开始。对于100ms的窗口宽度,该窗口包括470到570ms之间的数据,这意味着该窗口的尾端很可能包含了足够的信号,从而使分析变得重要。当使用时空SVR时,对于所有分析时间窗长,味觉评分再次显著高于概率预测(图4,右侧)。所有时空分析时间窗的信息时间过程的总体形状与其空间SVR对应信息高度相似,这种相似性在较小的分析时间窗中最强,特别是在10ms时。与空间分析相比,使用时空分析没有优势。无论窗长如何,与空间SVR相比,时空SVR的结果在参与者数据集中略低,且变化更大。
图4.SVR味觉等级解码结果。左侧和右侧分别为空间和时空解码分析结果。
健康等级解码。使用空间SVR,健康评分在所有分析时间窗(图5,左侧)上的预测也显著高于概率水平,尽管总体信息时间过程比味觉评分更嘈杂。信息时间过程的总体形状在所有分析时间窗之间是相似的,并且与之前一样,随着窗口宽度的增加,信息时间过程变得更加平滑,对于50ms和100ms的分析窗口,最初的两个独立的显著簇合并为一个。我们可以看到,聚类是否显著(在应用了严格的基于聚类的校正后)取决于所使用的分析时间窗口宽度。对于时空SVR,与来自空间SVR的信息时间过程相比,没有实质性的差异,特别是对于短的10ms窗口宽度(图5,右侧)。当分析窗口宽度为20ms时,与空间SVR相比,时空SVR显示出更大的显著聚类,而对于50ms的窗口,则相反,空间SVR比时空SVR出现了略大的显著聚类。在100ms的分析窗口下,与空间SVR相比,时空SVR的显著聚类更大。
图5.SVR健康等级解码结果。左侧和右侧分别为空间和时空解码分析结果。
总之,这些结果表明,这两个刺激维度的结果大体上相似。然而,就特定的时间步长而言,空间SVR在某些情况下略好,而在其他情况下,时空SVR稍优一些,这些细微的差异也因分析时间窗的宽度而略有不同。
结论
支持向量回归(SVR)是一种强大但未被充分利用的多变量M/EEG数据分析方法,但目前仍缺乏系统验证和全面描述。尽管分类技术仅限于预测分类变量(即类),但DDTBOX中实现的SVR可以从EEG数据中预测连续变量的信息。在这里,研究者使用了真实和模拟的EEG数据来证明其有效性,以帮助研究人员决定如何在DDTBOX中为他们的特定研究问题定制SVR,从而从EEG测量的ERP的多变量模式中预测感兴趣的连续变量。为了帮助用户更好地理解不同参数设置的效果,本研究进行了一系列的分析。这些表明SVR分析可以预测模拟和真实EEG数据中的连续变量。空间和时空SVR的结果非常相似,并且在各种分析时间窗口宽度上都很稳定,即使是每个通道只包含一个数据点的非常短的分析窗口。当分析时间窗较大时,会出现一些时间拖尾。即使在信息通道数量较少、时域信号抖动较大的情况下,SVR也能成功预测感兴趣的变量。这些结果以及先前发表的成功预测各种连续变量的证据表明,SVR是一种有用的数据驱动分析方法,它允许从高时间分辨率的神经活动分布模式中预测感兴趣变量的细微变化。总之,本研究希望为用户提供有价值的资源,以优化用户在自己数据中的SVR分析。
原文:Decoding continuous variables from event-related potential (ERP) data with linear support vector regression (SVR) using the Decision Decoding Toolbox (DDTBOX).
Doi: 10.3389/fnins.2022.989589
小伙伴们点个“在看”,加
(星标)关注茗创科技,将第一时间收到精彩内容推送哦~