0引言
基于计算机的视觉对象识别与语义理解是人工智能的一项主要研究内容,近年来,针对这一问题,各种方法不断涌现,包括产生/判别式方法,以及多示例学习、半监督学习和迁移学习等新的机器学习思想[1-4]。特别是将广泛应用于文本领域的“词汇包”(bagofwords)[5-6]表示方法引入到计算机视觉领域后,相应地,研究人员即将适合自然语言处理的统计模型——“主题模型”(topicmodel)[7]也引入到图像检索和对象识别问题中来。主题模型中,两个常用的模型为概率潜语义分析模型(PLSA)与潜在狄利克雷分布模型(LDA)[8],这两个模型在图像对象识别上都得到广泛的应用。中科院计算所史忠植研究员等提出适用于连续视觉特征建模的图像语义标注系统[9];吴飞博士和庄越挺教授[10]则融合了图像与文本的相关性实现对网络图像聚类,并通过引入单词与单词之间关联度等来改进LDA模型,Zisserman[11]使用尺度不变性PLSA学习Google搜索得到图片的对象类别。LDA模型是一个产生式模型,在LDA模型中将图像表示成独立于空间信息的视觉词汇的集合,在每个视觉词汇上都对应着一个主题,这个主题的产生独立于其他视觉词汇的主题。所有文档共享一系列主题,并且每篇文档对应不同的主题比例,这个主题比例产生于狄利克雷分布。LDA模型中每个主题产生于狄利克雷分布,因而不能反映主题间的依赖关系,这与现实明显不符,所以需改进主题产生的方式,即假设主题产生于高斯分布,使用协方差矩阵的结构来表达主题之间的共现关系,即一个主题与另一个主题的相关性概率。
此外,在LDA模型中,文本或者视觉词汇的主题分配都是条件独立的,并不依赖于词汇出现的顺序。近几年提出很多方法,这些方法针对词汇的主题分配的条件独立性缺陷进行了改进,多是采用在主题模型上加入马尔可夫随机场(MRF),例如Fei-FeiLi[12]将LDA模型与主题随机场模型融合并用于图像分割,Triggs[13]使用全局PLSA模型与局部MRF模型共同作用实现图像分类。LiangliangCao[14]在没有引入MRF的情况下,使用空间关联性潜在主题模型识别图像中对象的类别和场景,其中并未引入MRF,而是将图像划分为很多区域,每个区域表示成两个部分:一部分表示该区域的所有视觉词汇,另一部分表示该区域的整体外表特征,所以依然没有融合各个区域间的二维空间相互关系。马尔可夫随机场有其自身的缺点和弊端。在马尔可夫链中都是有向图,这个有向图就反映一定的依赖关系,而这种依赖关系却不能很好地对应现实的依赖关系。另外,在现实中标签之间的转移概率不仅依赖于当前所观察到的状态,同时也依赖于以前和未来的观察状态,这在MRF中均未得到很好的诠释,而条件随机场(CRF)则很好地融合了相邻词汇间主题分配的马尔科夫依赖关系,其当前词汇所对应的主题不仅依赖于当前的词汇,而且是建模在整个所观察到的视觉词汇序列上。针对图像二维空间性,将线性链CRF转换成二维CRF来实现,从而融合二维图像空间的相邻视觉词汇的相互作用关系。
本文主要贡献可归纳为:
将二维CRF模型融合到主题产生于高斯分布的LDA模型[17]中,使得每个词汇所对应的主题分布不再是条件独立的,而是与其二维空间中的相邻词汇有关,解决了相邻词汇间的依赖问题。
1融合空间信息的LDA模型
1.1LDA模型
潜在狄利克雷分配模型运用层次贝叶斯定义了文档的似然函数。具体来说就是为每个文档定义一个主题比例向量,这个比例向量来自于狄利克雷分布,每篇文档的词汇采样于一个特定的主题词汇分布。LDA模型可以是有监督学习,也可以是无监督学习。本文采用了无监督学习。但是,LDA模型中的狄利克雷分布不能获取主题之间的相关性,这与现实极为不符,因为现实中一个主题的出现常会反映出另外主题出现的可能性,所以需对LDA模型加以改进。将狄利克雷分布改为高斯分布,令表示k维的均值和方差矩阵,令表示K*N的矩阵,那么对于一需有N个词汇的文档,改进的LDA模型的产生过程如下:
(1)获取主题概率分布
(2)For:
(a)选择隐含主题
(b)生成一个词汇.
这个过程与LDA的生成过程相同,改进之处在于文档中主题分布来自于高斯分布,而非狄利克雷分布,通过协方差矩阵表示主题之间的共现关系,与现实更加相符。图1给出了LDA图模型表示。
1.2二维CRF
CRF[15](Conditionalrandomfields)是一种判别式模型。这是一个无向图,满足马尔可夫性质,即对随机场中的任何一个随机变量,给定场中的其他所有变量下该变量的分布,等同于给定场中该变量的邻居节点下该变量的分布。CRF是在马尔科夫随机场中加入了观测值。马尔可夫随机场中每一个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。在CRF中,要确定的是在给定观察集合下其MRF的分布,而不仅仅是在当前的观测值下的MRF分布。
由于图像的二维特性,需对线性链CRF进行改进,使其成为二维CRF。每个词汇的主题分布不仅依赖其前后位置词汇的主题,而且依赖其上下位置词汇的主题,所以本文采用八邻域法。根据LDA模型中一篇文档的产生过程,融合空间信息的LDA模型的图模型产生过程如图2所示。
这里,假设对每幅图像提取特征,获取每个patch块所对应的视觉词汇的索引值。每幅图像有n个视觉词汇。该模型中,一幅图像的生成过程与LDA模型的生成过程较为相似,不同之处只在于不再满足多项式分布,而是定义为广义线性模型:
式中,是K维的特征函数向量,这个特征函数定义了与图像中视觉词汇相关的特征,是一个K维的向量。根据上式,该模型的产生过程为:
其中,满足高斯分布,是在参数为下的主题概率分布,可以将式(1)改写为:
其中,是保证式(2)为概率模式的归一因子,其就散公式如下:
1.3特征函数
特征函数的选择对条件随机场极为重要,这里特征函数分为两种。第一种为独立特征函数,是仅与当前词汇相关的特征函数;第二种为相关性特征函数,是指当前词汇的主题分布要受到其相邻的词汇主题分布的影响,在此则体现了融合空间特性的目的。监狱图像的二维特性,需要考虑二维相邻区域词汇间主题的影响,本文采用八邻域法,如图3所示。
在此,对两种特征函数的形式与分析如下:
(1)独立特征函数:
由式可见,是一个K维的矩阵,K为所有图像共享主题的个数,是一个指示函数,表示如果这个词的主题为K,那么赋值为1,否则为0。
(2)相关性特征函数:
假设当前词汇的八邻域词汇所对应的主题分别是,那么在相关性特征函数的K维矩阵的相应位置上加1,最后得到的特征函数向量为:
2后验推理与参数估计
隐含变量的分布和未知参数的推理都较为困难的问题,即如何推理是需要考虑的核心问题。在二维CRF中,计算难度不仅是因为一幅图像中每个词汇所对应的主题不是独立产生的,而是与其邻域很多词汇的主题分布有关,并且还因为在归一因子中存在对潜在主题分布的指数级求和,所以使用变分推理方法替代精确推理方法就可以有效计算似然函数的下界。在图模型中,变分推理方法[16]有着通用的准则,但是这里需要考虑该模型中特殊的结构。参数估计采用最大似然估计方法。
使用Jensen不等式对似然函数进行变换,就得到似然函数的下界:
其中,为变分分布的熵。所以上述期望都是潜在变量变分分布的期望。这里设为模型参数,为变分参数。继续假设隐含变量的变分分布满足:
连续变量的变分分布为K个相互独立的高斯分布,与分别是高斯分布的均值和方差。则为主题为分布的K维参数。
在似然函数的下界中第一项通过计算得到:
似然函数的下界的第二项:
但是由于归一因子是log形式,式(10)不能有效地计算出来,所以根据不等式:
得到第二项中对归一因子的log形式的期望: |