更全的杂志信息网

基于ELM-AE的迁移学习算法∗

更新时间:2009-03-28

1 引言

互联网和社交网络的快速发展,带来了数据(例如,Web数据)的爆发式增长[11]。数据种类的增多导致实际应用中经常需要处理来自于不同领域的数据。由于数据特征之间的差异较大,导致很难训练出一种公共分类器去分类不同类别的数据,在这种情况下就需要使用迁移学习。迁移学习[15]的主要目的是训练一种健壮的公共分类器,可以很好地对来自于不同领域的数据进行分类。迁移学习广泛应用在自然语言处理[16~18],计算机视觉[18~20],统计和机器学习[18~20]中。传统的迁移学习有很多都是基于主成分分析法(PCA)[6,9~10]来实现的。PCA[5,12]是在尽量不改变数据特征的情况下来降低数据的维度,它是考察多个变量间相关性的一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。PCA所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原变量。然而PCA具有它的局限性:1)它要求数据必须是线性的。2)它分解出的特征必须是正交的。这导致在实际应用中很多数据都无法应用PCA来进行处理。

观察组进行腰硬联合麻醉。侧卧位,穿刺L2-3,平卧,硬膜外用16号硬穿刺针,达到硬膜外腔后,用合适的鼻尖式腰穿针经硬膜外穿刺针进入蛛网膜下腔,脑脊液出现后给予麻醉药物注入((0.75%布比卡因2ml+脑脊液1ml),拔除腰穿针后将硬膜外导管置入头侧,平卧,调整麻醉平面。

从上表,我们可以看到,孔子在《史记》任何一个部分中都有述及,可以说是贯穿于《史记》整个结构中的,体现了一种完整性。此外,述及孔子的部分在《史记》中分布比较均匀,虽然在书、世家和本纪等部分中所占比例较大,但若以全部述及孔子的卷数占《史记》总卷数的比例作参照,则差距尚不是很大,这又体现了一种普遍性,可见《史记》注重孔子绝不是偶然的,而是经过深思熟虑和精心设计的,表现了司马迁对孔子的倾心关注。

本文使用一种新的特征提取方法,即极限学习机自编码(ELM-AE)。基于ELM-AE来完成迁移学习,它可以解决PCA应用中的局限性,并在迁移学习上获得更高的分类准确率。

首先,在对果树进行修剪过程当中,要对患有病虫害的树枝进行剪切,并将剪切掉的树枝用火烧的方式对其进行处理,防治病虫害对其他健康的树枝进行传染。当前大部分果树管理员选择在冬季对果树进行修剪,这样可以有效的降低开春时病虫害发生的几率。其次,利用白涂剂对果树的树干或者主干下部进行处理,不但可以杀死病虫害,而且还有助于防治动物对其进行破坏。最后,早春时期,或者冬季来临之前,根据相关的技术标准,对果园的土壤进行深挖。这种做法可以有效的杀死土壤当中的病虫,提升土壤吸收养分以及水分的能力,促进果树的健康成长。

迁移学习的最基本的实现方法是将原始数据映射到一个新的空间中,在这个空间中,源域和目标域的特征之间的差异被最小化。基于PCA的迁移学习算法已经被广泛的研究[6,9~10],通过 PCA 可以找到一个公共的特征子空间。在文献[8]中Blitzer等提出了一种方法,通过不同领域之间的特征关系去学习一个新的特征空间。在Chang[15]表示源域数据可以通过目标域数据线性变换而得到。在 Gong等[7]提出了一个 geodesic flow kernel(GFK),它主要统计源数据和目标数据在几何和统计上特征的改变。Fernando等[3]提出了一种基于PCA的迁移学习算法,他们应用PCA分别得到源域数据和目标域数据的特征空间,然后将源域数据特征映射到目标域数据的特征空间中或者将目标域数据的特征映射到源域数据的特征空间中。

2 ELM-AE

极速学习机自编码器(ELM-AE)是一种基于极速神经网络(ELM)的自编码器,具有ELM的计算速度快,效率高等优点。和传统的ELM[14]神经网络类似,ELM-AE的网络结构包含三层:输入层,隐含层和输出层。唯一不同之处在于ELM-AE的目标输出和它的输入是相等的,其网络结构如图1所示。

  

图1 ELM-AE网络结构

假设源域数据为 xS,目标域数据为 xT,xS,xT∈R1×D ,则源域和目标域的特征子空间 X͂S和X͂T可以被分别表示为 ySWS和 yTWT。为了将源域特征子空间 X͂S和目标域特征子空间 X͂T映射到一个公共特征子空间中,在此需要学习一个转换矩阵M ,通过M 使WS和WT对齐。根据文献[3],M可以通过最小化Bregman矩阵求解:

压缩型:代表数据从高维空间映射到低维空间中。

稀疏型:代表数据从低维空间映射到高维空间中。

等维型:代表数据映射前后的维度是相等的。

基于ELM-AE的子空间对齐算法的实现主要分两个环节:子空间生成;子空间对齐。其主现现步骤为:首先初始化ELM-AE,计算输入数据的输出权值,生成对应的特征子空间。其次,利用生成的特征子空间求解出转化矩阵M。最后利用转化矩阵将各自的特征空间进行对齐。基于ELM-AE的子空间对齐算法流程见算法1。

 

在式(1)中 a=是随机正交的权重,b=[b 1 ,…,bL]是随机正交的偏差。对于压缩型和稀疏型的ELM-AE,计算ELM-AE的输出权值β可以通过式(2):

 

-1

ELM-AE的输出权β可以通过奇异值来对输入数据进行特征表达,因此通过ELM-AE可以得到源域数据和目标域数据各自的特征子空间,分别记为WS和WT(WS,WT∈RD×L)。D表示的是数据的维度,L表示的是ELM-AE的隐含层节点数。由于源域数据和目标域数据分布不同,映射出的特征子空间也各不相同。通过子空间对齐将源域和目标域的特征子空间映射到一个公共的特征空间中,在该公共特征空间中,源域数据和目标域数据之间的特征差异被最小化。这样通过公共特征子空间上的数据来训练的分类器可以很好地分类来自不同域的数据。

 

通过转化矩阵M,可以得到子空间对齐后的新的映射空间:

改革开放四十年“三农”改革探索,对中国实现从“站起来”、“富起来”到“强起来”的伟大跨越具有重要的历史意义。走进新时代,“三农”工作有了新的历史方位,新的思想坐标,新的使命担当。“三农”改革必须有新气象、新作为,改革永远在路上,乡村是大有可为的广阔空间。长风破浪会有时,直挂云帆济沧海。沿着新时代中国特色社会主义乡村振兴道路,乡村振兴必将实现,富强、民主、文明、和谐、美丽的社会主义现代化强国必将实现。

正如吴士余在《中国文化与小说思维》一文中指出的:诗画文化与园林的沟通及渗透更让写意园在这一阶段达于大成。作为中国诗画文化的一种补充和物化而成为兼容诗情画意的独立艺术。园林文化的技术功能与由园林空间创造而激发的审美功能得到了和谐统一。[1]

 

其中u是HHT的特征向量,d是H的奇异值,H是输入X在隐含层空间上的映射,所以ELM-AE的输出权值β通过奇异值可以对输入数据进行特征表达,通过β可以将输入数据映射到对应的特征子空间中。

3 基于ELM-AE的子空间对齐

在实际应用中,数据通常来源于不同领域,例如图片和文本混合的数据,如果使用图片的数据来训练一个分类器,并用它来分类文本的数据,通常不会获得好的分类效果。迁移学习可以很好地解决此类问题。

由式(7)可以求得最优的转化矩阵M :

其中,H=[h 1 ,…,hN ]是ELM-AE的隐含层输出,C是ELM的输入参数,I是标准单位矩阵,X=[x 1 ,…,xN]是ELM-AE的输入和输出。对于等维型ELM-AE,计算它的输出权值 β可以通过式(3):

在图1中,L代表的是隐含节点数,d代表的是输入层和输出层的节点数,也就是数据的维度,x代表的是ELM-AE的输入和输出。根据d和L之间的关系,ELM-AE可以被分为三种不同的类型。

 

其中是Frobenius范数。由于Frobenius范数的正交不变性,式(5)可以写成

 

此诗写于乾隆五十四年(1789年),记录的便是此次乾隆皇帝的木兰行围。诗歌以“南天门,古北口,绝壁盘盘上奇陡。青石梁,黄土冈,山行牵确何其长”展现了木兰围场之广袤和山势之陡峭,进而以“五云多处晨霞炳,犹隔坡陀广仁岭”描绘了木兰围场宏伟壮丽的景象,为读者呈献了云霞萦绕、晨光万丈的壮美景色。诗歌后半部分详细描写了王公贵族身跨骏马驰骋猎场的景象,这景象使得身为一介书生的诗人恨不得策马奔腾,一吐快意。其中“射虎当熊俱不敏”暗用苏轼“亲射虎,看孙郎”的典故,既赞美了统治者的文韬武略,又抒发了诗人拳拳爱国的情怀,并表达了诗人建功立业的心志。

 

式(2)的奇异值分解(SVD)可以表示为

群体共振的教师发展场域,可以简化为“线—面—体”的基本形态,分别以名师工作坊、研修共同体、创新实验区为承载形式,实现线、面、体多种形式互嵌互融,生态影响,共同发展。如图1所示。

 

a就是目标域特征子空间对齐源域特征子空间后的公共特征空间。

“互联网+”、大数据、人工智能、云计算等新兴技术的深入发展,促使传统制造业不得不向绿色、高效、智能方向深度变革。信息技术的不断渗入,使得制造业本身的商业模式也逐渐从设计、制造、销售模式向客户需求、产品制造、售后服务等全产业链不断延伸和扩张。

4 算法实现

根据ELM的理论[4,14],隐含层的参数可以随机地生成。通常可以选择正交的隐含层参数来提高ELM-AE的泛化性能。隐含层的参数可以通过Johnson-Lindenstrauss lemma[13]来计算得到:

算法1:基于ELM-AE的子空间对齐算法

输入:源域数据XS,目标域数据XT,源域数据标签TS,目标域数据标签TT,隐含层节点数 L,激活函数 h(x)。

输出:预测的目标域标签 TT

 

5 实验验证

本次实验选取 Office[1]和 Caltech256[2]数据集来进行算法的验证。Office数据集上包含webcam图片(W),DSLR图片(D)和 Amazon图片(A)。Caltech256中的图片被标记为C。数据集共包含4个不同领域的数据。A,W,D和C可以组成12组迁移学习问题。迁移学习可以被标记为S→T,S代表源数据域,T代表目标数据域。

本实验将基于ELM-AE的迁移学习算法与其他几种常见的迁移学习算法进行了比较,每组迁移学习分别使用KNN和SVM作为最终分类器,实验结果如表1所示。

 

表1 (Part I).KNN分类器的分类准确率(Office dataset+Caltech256)

  

算法NA[3]DA-SA1[3]DA-SA2[3]PCA[3]GFK[7]ELM-AE C→A 21.53%38.00%40.50%39.00%36.90%39.72%D→A 28.71%29.80%33.00%38.00%32.52%36.89%D→W 62.44%74.00%78.40%83.60%74.92%84.41%W→A 23.64%35.50%38.00%37.40%31.10%34.42%A→C 22.55%30.90%33.30%35.30%35.61%35.74%D→C 26.26%29.60%31.20%32.40%29.86%33.24%W→C 19.21%31.30%31.90%32.30%27.26%33.61%A→D 21.34%34.60%34.70%37.60%35.24%36.86%C→D 21.08%37.40%36.40%39.60%35.21%39.92%W→D 54.01%71.80%72.90%80.30%70.63%80.83%A→W 25.24%35.10%36.80%38.60%34.46%36.76%C→W 20.32%33.50%34.40%36.80%33.71%36.92%

 

表2 (Part I).SVM分类器的分类准确率(Office dataset+Caltech256)

  

算法DA-SA1[3]DA-SA2[3]PCA[3]GFK[7]ELM-AE C→A 44.30%44.50%46.10%44.82%46.62%D→A 36.80%38.60%41.05%37.91%41.15%W→A 32.90%34.20%39.30%37.10%39.02%A→C 36.80%37.30%39.20%38.37%40.88%D→C 29.60%31.60%35.00%31.42%35.93%W→C 24.90%28.40%31.80%29.14%33.17%A→D 36.10%32.50%38.80%37.92%39.76%C→D 38.90%35.30%39.40%36.14%41.46%W→D 73.60%73.60%77.90%74.60%80.76%A→W 42.50%37.30%39.60%39.81%41.05%C→W 34.60%34.20%38.90%34.93%39.10%D→W 75.40%80.50%82.30%79.10%83.88%

6 实验结果分析

在上述实验结果中,表1和表2均被分为两个部分。NA表示的是在该组迁移学习中不涉及特征映射。GFK[7]主要统计源数据和目标数据在几何和统计上特征的改变。PCA[3]表示应用PCA分别得到源域数据和目标域数据的特征空间,然后将源域数据特征映射到目标域数据的特征空间中或者将目标域数据的特征映射到源域数据的特征空间中。DA-SA1[3]表示源数据通过PCA来求得源数据的目标子空间WS。DA-SA2[3]表示目标域数据利用PCA得到目标域子空间WT。表1使用KNN作为最终分类器,在表1的12组迁移学习中,有8组在准确率方面提升明显。表2使用了SVM作为最终分类器,表2中的迁移学习中有11组迁移学习获得了更高的分类准确率。实验结果表明不论最终分类器是选择KNN还是SVM,基于ELM-AE的迁移学习算法都可以获得更高的分类准确率,这证明了基于ELM-AE的迁移学习算法拥有更好的应用性。

7 结语

基于ELM-AE的迁移学习算法相比传统的迁移学习算法拥有着更好的效率。由于ELM-AE和ELM一样在计算过程中不需要迭代,因此计算速度快。相比于PCA,ELM-AE可以很好地处理那些非线性的数据问题。随着数据种类的增多,基于ELM-AE的迁移学习算法在未来会获得更加广泛的应用。

参考文献

[1]Saenko K,Kulis B,Fritz M,et al.Adapting Visual Category Models to New Domains[J].ECCV,Heraklion,Greece,September 2010:213-226.

[2]Gopalan R,Ruonan L,Chellappa R.Domain adaptation for object recognition:An unsupervised approach[J].2011,24(4):999-1006.

[3]Fernando B,Habrard A,Sebban M,et al.Unsupervised Visual Domain Adaptation Using Subspace Alignment[C]//IEEE International Conference on Computer Vision.IEEE,2014:2960-2967.

[4]Kasun L L C,Zhou H,Huang G B,et al.Representational Learning with ELMs for Big Data[J].Intelligent Systems IEEE,2013,28(6):31-34.

[5]Jolliffe I T.Principal Component Analysis[J].Journal of Marketing Research,2002.

[6]Chen B,Lam W,Tsang I,et al.Extracting discriminative concepts for domain adaptation in text mining[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Paris,France,June 28-July.DBLP,2009:179-188.

[7]Gong B,Shi Y,Sha F,et al.Geodesic flow kernel for unsupervised domain adaptation[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2012:2066-2073.

[8]Blitzer J,Mcdonald R,Pereira F.Domain adaptation with structural correspondence learning[J].Emnlp,2006:120-128.

[9]Pan S J,Kwok J T,Yang Q.Transfer learning via dimensionality reduction[C]//AAAI Conference on Artificial Intelligence,AAAI 2008,Chicago,Illinois,Usa,July.DBLP,2008:677-682.

[10]Pan S J,Tsang I W,Kwok J T,et al.Domain adaptation via transfer component analysis[J].IEEE Transactions on Neural Networks,2011,22(2):199.

[11]Torralba A,Efros A A.Unbiased look at dataset bias[C]//Computer Vision and Pattern Recognition.IEEE,2011:1521-1528.

[12]Zwald L,Blanchard G.On the Convergence of Eigenspaces in Kernel Principal Component Analysis[C]//2005:1649-1656.

[13]Johnson W B,Lindenstrauss J.Extensions of Lipschitz maps into a Hilbert space[J].1984,26(189):189-206.

[14]Huang G B,Chen L,Siew C K.Universal approximation using incremental constructive feedforward networks with random hidden nodes[J].IEEE Trans Neural Netw,2006,17(4):879-892.

[15]Jhuo I H,Liu D,Lee D T,et al.Robust visual domain adaptation with low-rank reconstruction[C]//Computer Vision and Pattern Recognition.IEEE,2012:2168-2175.

[16]Iii H D.Frustratingly Easy Domain Adaptation[J].ACL,2009.

[17]Leggetter C J,Woodland P C.Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models[J].Computer Speech&Language,1995,9(2):171-185.

[18]Huang J,Smola A J,Gretton A,et al.Correcting sample selection bias by unlabeled data[C]//International Conference on Neural Information Processing Systems.MIT Press,2006:601-608..

[19]Ben-David S,Blitzer J,Crammer K,et al.Analysis of representations for domain adaptation[C]//International Conference on Neural Information Processing Systems.MIT Press,2006:137-144.

[20]Pan S J,Yang Q.A Survey on Transfer Learning[J].IEEE Transactions on Knowledge&Data Engineering,2010,22(10):1345-1359.

 
邓万宇,屈玉涛,张倩
《计算机与数字工程》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号