此文为深兰科技科学院撰写,文章将对手语数据模态如何处理并从中提取有意义的信息进行深入讨论。
当下,我们生活在多模式信息的时代里。我们日常的每一天都可能有过这些经历:早晨,枕边的闹钟准时响起,闹铃则是自己精心挑选的歌曲或音效。在赖床时,我们随手拿起手机打开各类APP消磨时间。在上班途中,我们插上耳机看新闻、追剧、听音乐。在工作中,我们阅读处理大量的文件材料、开会讨论项目。在午休时,我们翻看微博、知乎或各类门户网站。在下班后,我们可能会相约好友一起看电影、看话剧,或者在家尝试最新入手的VR设备。
在我们的每一天生活中,毫不夸张地说,我们的五种感官都在不断地接收到外界各种信息的刺激。而在我们了解世界的过程中,我们所具备的能够感知和处理多模态数据的能力起着至关重要的作用。
在所有的信息方式中,我们都熟悉并且常见的信息方式有:音频、视频和文本。关于这些数据类型的表示,我们可以分别理解为:音频表示为时间序列数据;文本是具有上下文的词向量序列;视频理解为图像序列。从信息处理和深度学习的角度来看,因为目前已经存在可以从这些类型的数据中提取特征的成熟方法(例如,音频数据情况下的傅立叶变换),并且用于对这些提取的特征进行学习的架构已具有鲁棒性,所以能够非常有效地完成对这些类型的数据处理。
以时间序列数据为例,当前已有多种方法可以提取时间序列数据的相关特征,比如使用傅里叶变换来计算傅里叶系数,并将这些值用作表征时间序列的特征。除此以外,还可通过计算自相关系数,或复杂性度量等方法,例如Lempel-Ziv因子。
对于文本数据,一种众所周知的方法是以数值向量的形式表示单词,其中数值向量可以从非线性映射中获得(比如利用全连接神经网络)。Word2vec是其中一个特别著名的深度学习示例。其他经典方法还包括 TF-IDF,这是一种用于对语料库中特定单词的重要性进行分类的度量。
对于视频数据,相较于音频和文本,视频数据的特征提取稍微复杂一些。我们一方面可以将视频表示为静态图像的时间序列进行处理,另一方面也可以对视频数据进行建模。
然而,对于鲜为人知的数据模式,应该怎么处理呢?在接下去的文章中,我们主要针对手语数据进行展开。我们如何处理这样的模态并从中提取有意义的信息呢?
手语是使用视觉和手动方式相结合来传达意义的语言。在表达过程中,手语使用者通过身体部位(通常是手)的运动进行交流。使用这种模式的用户主要包括听力和语言障碍者,并被归类为具有自己语法和词典的成熟自然语言。全球有150~200种手语变体,用户总数约为7200万。因此,我们看到手语应该被视为一种重要的信息模态,而研究如何最好地提取和分析手语是目前计算语言学的一个重要领域。
手语数据最常以视频的形式呈现,视频中的手语使用者可以通过手势来传达他或她的意图(尽管在手语的使用过程中,使用者的身体姿势和面部表情也很重要,但针对本篇文章的研究中,我们在此不考虑这些情况)。
图1:手语动作截图
当手语数据以视频方式呈现时,虽然我们可以使用上述所提到的处理视频的方法来处理手语信息,但这会导致很多重要的信息丢失。因为传统的视频处理方法,例如深度方法中的CNN,是无法将语义信息—手姿势考虑在内的,而手姿势包含了所有最重要的信息。因此,为了正确地包含这些信息,我们通过图形对手部姿势进行建模。这些图结构由节点和边组成,边将节点连接起来形成连接结构,如图2所示。
图2:图结构
图3 中,大家能够更直观的看到如何通过图结构表示一个手势。
图3:手势的图表示
一只手的典型图表示由一组依次标记的节点构成,这些节点定义了手上拓扑上重要的地标点。此类图数据可以通过所谓的图卷积网络在深度学习环境中轻松处理。另外,基于邻接矩阵的重要特征图结构能够充分考虑到邻接矩阵中编码的信息。图4说明了一个经典图卷积网络的结构。
图4:图卷积网络的结构
在手语的完整特征表示中,只有静态图信息往往是不够的,我们仍然缺少帧序列形式的动态信息。因此,我们可以使用时空 GCN 的深层架构将时间维度与空间维度一并考虑。该深层架构可以分别在空间(帧内)和时间(帧间)维度上执行图形和时间卷积。图5 展示了 ST-GCN 的结构。
图5:ST-GCN基本操作原理
综上,我们基本完成了一个能够具有足够表达能力的手语视频表示的深度学习架构。那么我们可以用这样的表示做什么呢?这正是深兰科技科学院当前研究的一个重要课题之一。在我们前期提交至 CVPR的论文中,我们使用了类似于 ST-GCN 的架构来检测虚假的人类动作视频。架构图如图6 所示。
图6:TC-GCN结构图
在我们目前正在进行的论文中,我们利用我们前期的研究结果来继续研究一种新颖的架构,希望在不同的信息模式之间能够进行转换。也就是说,我们提出了另一个问题:我们可以在手语和图像之间进行翻译吗?这一结果可能为设计一种能够在手语和图像之间自动翻译的设备铺平道路。
当下,我们生活在多模式信息的时代里。我们日常的每一天都可能有过这些经历:早晨,枕边的闹钟准时响起,闹铃则是自己精心挑选的歌曲或音效。在赖床时,我们随手拿起手机打开各类APP消磨时间。在上班途中,我们插上耳机看新闻、追剧、听音乐。在工作中,我们阅读处理大量的文件材料、开会讨论项目。在午休时,我们翻看微博、知乎或各类门户网站。在下班后,我们可能会相约好友一起看电影、看话剧,或者在家尝试最新入手的VR设备。
在我们的每一天生活中,毫不夸张地说,我们的五种感官都在不断地接收到外界各种信息的刺激。而在我们了解世界的过程中,我们所具备的能够感知和处理多模态数据的能力起着至关重要的作用。
在所有的信息方式中,我们都熟悉并且常见的信息方式有:音频、视频和文本。关于这些数据类型的表示,我们可以分别理解为:音频表示为时间序列数据;文本是具有上下文的词向量序列;视频理解为图像序列。从信息处理和深度学习的角度来看,因为目前已经存在可以从这些类型的数据中提取特征的成熟方法(例如,音频数据情况下的傅立叶变换),并且用于对这些提取的特征进行学习的架构已具有鲁棒性,所以能够非常有效地完成对这些类型的数据处理。
以时间序列数据为例,当前已有多种方法可以提取时间序列数据的相关特征,比如使用傅里叶变换来计算傅里叶系数,并将这些值用作表征时间序列的特征。除此以外,还可通过计算自相关系数,或复杂性度量等方法,例如Lempel-Ziv因子。
对于文本数据,一种众所周知的方法是以数值向量的形式表示单词,其中数值向量可以从非线性映射中获得(比如利用全连接神经网络)。Word2vec是其中一个特别著名的深度学习示例。其他经典方法还包括 TF-IDF,这是一种用于对语料库中特定单词的重要性进行分类的度量。
对于视频数据,相较于音频和文本,视频数据的特征提取稍微复杂一些。我们一方面可以将视频表示为静态图像的时间序列进行处理,另一方面也可以对视频数据进行建模。
然而,对于鲜为人知的数据模式,应该怎么处理呢?在接下去的文章中,我们主要针对手语数据进行展开。我们如何处理这样的模态并从中提取有意义的信息呢?
手语是使用视觉和手动方式相结合来传达意义的语言。在表达过程中,手语使用者通过身体部位(通常是手)的运动进行交流。使用这种模式的用户主要包括听力和语言障碍者,并被归类为具有自己语法和词典的成熟自然语言。全球有150~200种手语变体,用户总数约为7200万。因此,我们看到手语应该被视为一种重要的信息模态,而研究如何最好地提取和分析手语是目前计算语言学的一个重要领域。
手语数据最常以视频的形式呈现,视频中的手语使用者可以通过手势来传达他或她的意图(尽管在手语的使用过程中,使用者的身体姿势和面部表情也很重要,但针对本篇文章的研究中,我们在此不考虑这些情况)。
图1:手语动作截图
当手语数据以视频方式呈现时,虽然我们可以使用上述所提到的处理视频的方法来处理手语信息,但这会导致很多重要的信息丢失。因为传统的视频处理方法,例如深度方法中的CNN,是无法将语义信息—手姿势考虑在内的,而手姿势包含了所有最重要的信息。因此,为了正确地包含这些信息,我们通过图形对手部姿势进行建模。这些图结构由节点和边组成,边将节点连接起来形成连接结构,如图2所示。
图2:图结构
图3 中,大家能够更直观的看到如何通过图结构表示一个手势。
图3:手势的图表示
一只手的典型图表示由一组依次标记的节点构成,这些节点定义了手上拓扑上重要的地标点。此类图数据可以通过所谓的图卷积网络在深度学习环境中轻松处理。另外,基于邻接矩阵的重要特征图结构能够充分考虑到邻接矩阵中编码的信息。图4说明了一个经典图卷积网络的结构。
图4:图卷积网络的结构
在手语的完整特征表示中,只有静态图信息往往是不够的,我们仍然缺少帧序列形式的动态信息。因此,我们可以使用时空 GCN 的深层架构将时间维度与空间维度一并考虑。该深层架构可以分别在空间(帧内)和时间(帧间)维度上执行图形和时间卷积。图5 展示了 ST-GCN 的结构。
图5:ST-GCN基本操作原理
综上,我们基本完成了一个能够具有足够表达能力的手语视频表示的深度学习架构。那么我们可以用这样的表示做什么呢?这正是深兰科技科学院当前研究的一个重要课题之一。在我们前期提交至 CVPR的论文中,我们使用了类似于 ST-GCN 的架构来检测虚假的人类动作视频。架构图如图6 所示。
图6:TC-GCN结构图
在我们目前正在进行的论文中,我们利用我们前期的研究结果来继续研究一种新颖的架构,希望在不同的信息模式之间能够进行转换。也就是说,我们提出了另一个问题:我们可以在手语和图像之间进行翻译吗?这一结果可能为设计一种能够在手语和图像之间自动翻译的设备铺平道路。