快捷分类

基于ELM-AE的迁移学习算法∗

更新时间：2009-03-28

1 引言

互联网和社交网络的快速发展，带来了数据（例如，Web数据）的爆发式增长［11］。数据种类的增多导致实际应用中经常需要处理来自于不同领域的数据。由于数据特征之间的差异较大，导致很难训练出一种公共分类器去分类不同类别的数据，在这种情况下就需要使用迁移学习。迁移学习［15］的主要目的是训练一种健壮的公共分类器，可以很好地对来自于不同领域的数据进行分类。迁移学习广泛应用在自然语言处理［16～18］，计算机视觉［18～20］，统计和机器学习［18～20］中。传统的迁移学习有很多都是基于主成分分析法（PCA）［6，9～10］来实现的。PCA［5，12］是在尽量不改变数据特征的情况下来降低数据的维度，它是考察多个变量间相关性的一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关。PCA所要做的就是设法将原来众多具有一定相关性的变量，重新组合为一组新的相互无关的综合变量来代替原变量。然而PCA具有它的局限性：1）它要求数据必须是线性的。2）它分解出的特征必须是正交的。这导致在实际应用中很多数据都无法应用PCA来进行处理。

观察组进行腰硬联合麻醉。侧卧位,穿刺L2-3,平卧,硬膜外用16号硬穿刺针,达到硬膜外腔后,用合适的鼻尖式腰穿针经硬膜外穿刺针进入蛛网膜下腔,脑脊液出现后给予麻醉药物注入((0.75%布比卡因2ml+脑脊液1ml),拔除腰穿针后将硬膜外导管置入头侧,平卧,调整麻醉平面。

从上表，我们可以看到，孔子在《史记》任何一个部分中都有述及，可以说是贯穿于《史记》整个结构中的，体现了一种完整性。此外，述及孔子的部分在《史记》中分布比较均匀，虽然在书、世家和本纪等部分中所占比例较大，但若以全部述及孔子的卷数占《史记》总卷数的比例作参照，则差距尚不是很大，这又体现了一种普遍性，可见《史记》注重孔子绝不是偶然的，而是经过深思熟虑和精心设计的，表现了司马迁对孔子的倾心关注。

本文使用一种新的特征提取方法，即极限学习机自编码（ELM-AE）。基于ELM-AE来完成迁移学习，它可以解决PCA应用中的局限性，并在迁移学习上获得更高的分类准确率。

首先，在对果树进行修剪过程当中，要对患有病虫害的树枝进行剪切，并将剪切掉的树枝用火烧的方式对其进行处理，防治病虫害对其他健康的树枝进行传染。当前大部分果树管理员选择在冬季对果树进行修剪，这样可以有效的降低开春时病虫害发生的几率。其次，利用白涂剂对果树的树干或者主干下部进行处理，不但可以杀死病虫害，而且还有助于防治动物对其进行破坏。最后，早春时期，或者冬季来临之前，根据相关的技术标准，对果园的土壤进行深挖。这种做法可以有效的杀死土壤当中的病虫，提升土壤吸收养分以及水分的能力，促进果树的健康成长。

迁移学习的最基本的实现方法是将原始数据映射到一个新的空间中，在这个空间中，源域和目标域的特征之间的差异被最小化。基于PCA的迁移学习算法已经被广泛的研究［6，9～10］，通过 PCA 可以找到一个公共的特征子空间。在文献［8］中Blitzer等提出了一种方法，通过不同领域之间的特征关系去学习一个新的特征空间。在Chang［15］表示源域数据可以通过目标域数据线性变换而得到。在 Gong等［7］提出了一个 geodesic flow kernel（GFK），它主要统计源数据和目标数据在几何和统计上特征的改变。Fernando等［3］提出了一种基于PCA的迁移学习算法，他们应用PCA分别得到源域数据和目标域数据的特征空间，然后将源域数据特征映射到目标域数据的特征空间中或者将目标域数据的特征映射到源域数据的特征空间中。

2 ELM-AE

极速学习机自编码器（ELM-AE）是一种基于极速神经网络（ELM）的自编码器，具有ELM的计算速度快，效率高等优点。和传统的ELM［14］神经网络类似，ELM-AE的网络结构包含三层：输入层，隐含层和输出层。唯一不同之处在于ELM-AE的目标输出和它的输入是相等的，其网络结构如图1所示。

图1 ELM-AE网络结构

假设源域数据为 xS，目标域数据为 xT，xS，xT∈R1×D ，则源域和目标域的特征子空间 X͂S和X͂T可以被分别表示为 ySWS和 yTWT。为了将源域特征子空间 X͂S和目标域特征子空间 X͂T映射到一个公共特征子空间中，在此需要学习一个转换矩阵M ，通过M 使WS和WT对齐。根据文献［3］，M可以通过最小化Bregman矩阵求解：

压缩型：代表数据从高维空间映射到低维空间中。

稀疏型：代表数据从低维空间映射到高维空间中。

等维型：代表数据映射前后的维度是相等的。

基于ELM-AE的子空间对齐算法的实现主要分两个环节：子空间生成；子空间对齐。其主现现步骤为：首先初始化ELM-AE，计算输入数据的输出权值，生成对应的特征子空间。其次，利用生成的特征子空间求解出转化矩阵M。最后利用转化矩阵将各自的特征空间进行对齐。基于ELM-AE的子空间对齐算法流程见算法1。

在式（1）中 a=是随机正交的权重，b=[b 1 ，…，bL]是随机正交的偏差。对于压缩型和稀疏型的ELM-AE，计算ELM-AE的输出权值β可以通过式（2）：

-1

ELM-AE的输出权β可以通过奇异值来对输入数据进行特征表达，因此通过ELM-AE可以得到源域数据和目标域数据各自的特征子空间，分别记为WS和WT（WS，WT∈RD×L）。D表示的是数据的维度，L表示的是ELM-AE的隐含层节点数。由于源域数据和目标域数据分布不同，映射出的特征子空间也各不相同。通过子空间对齐将源域和目标域的特征子空间映射到一个公共的特征空间中，在该公共特征空间中，源域数据和目标域数据之间的特征差异被最小化。这样通过公共特征子空间上的数据来训练的分类器可以很好地分类来自不同域的数据。

通过转化矩阵M，可以得到子空间对齐后的新的映射空间：

改革开放四十年“三农”改革探索，对中国实现从“站起来”、“富起来”到“强起来”的伟大跨越具有重要的历史意义。走进新时代，“三农”工作有了新的历史方位，新的思想坐标，新的使命担当。“三农”改革必须有新气象、新作为，改革永远在路上，乡村是大有可为的广阔空间。长风破浪会有时，直挂云帆济沧海。沿着新时代中国特色社会主义乡村振兴道路，乡村振兴必将实现，富强、民主、文明、和谐、美丽的社会主义现代化强国必将实现。

正如吴士余在《中国文化与小说思维》一文中指出的：诗画文化与园林的沟通及渗透更让写意园在这一阶段达于大成。作为中国诗画文化的一种补充和物化而成为兼容诗情画意的独立艺术。园林文化的技术功能与由园林空间创造而激发的审美功能得到了和谐统一。[1]

其中u是HHT的特征向量，d是H的奇异值，H是输入X在隐含层空间上的映射，所以ELM-AE的输出权值β通过奇异值可以对输入数据进行特征表达，通过β可以将输入数据映射到对应的特征子空间中。

3 基于ELM-AE的子空间对齐

在实际应用中，数据通常来源于不同领域，例如图片和文本混合的数据，如果使用图片的数据来训练一个分类器，并用它来分类文本的数据，通常不会获得好的分类效果。迁移学习可以很好地解决此类问题。

由式（7）可以求得最优的转化矩阵M ：

其中，H=[h 1 ，…，hN ]是ELM-AE的隐含层输出，C是ELM的输入参数，I是标准单位矩阵，X=[x 1 ，…，xN]是ELM-AE的输入和输出。对于等维型ELM-AE，计算它的输出权值 β可以通过式（3）：

在图1中，L代表的是隐含节点数，d代表的是输入层和输出层的节点数，也就是数据的维度，x代表的是ELM-AE的输入和输出。根据d和L之间的关系，ELM-AE可以被分为三种不同的类型。

其中是Frobenius范数。由于Frobenius范数的正交不变性，式（5）可以写成

此诗写于乾隆五十四年（1789年），记录的便是此次乾隆皇帝的木兰行围。诗歌以“南天门，古北口，绝壁盘盘上奇陡。青石梁，黄土冈，山行牵确何其长”展现了木兰围场之广袤和山势之陡峭，进而以“五云多处晨霞炳，犹隔坡陀广仁岭”描绘了木兰围场宏伟壮丽的景象，为读者呈献了云霞萦绕、晨光万丈的壮美景色。诗歌后半部分详细描写了王公贵族身跨骏马驰骋猎场的景象，这景象使得身为一介书生的诗人恨不得策马奔腾，一吐快意。其中“射虎当熊俱不敏”暗用苏轼“亲射虎，看孙郎”的典故，既赞美了统治者的文韬武略，又抒发了诗人拳拳爱国的情怀，并表达了诗人建功立业的心志。

式（2）的奇异值分解（SVD）可以表示为

群体共振的教师发展场域，可以简化为“线—面—体”的基本形态，分别以名师工作坊、研修共同体、创新实验区为承载形式，实现线、面、体多种形式互嵌互融，生态影响，共同发展。如图1所示。

W͂a就是目标域特征子空间对齐源域特征子空间后的公共特征空间。

“互联网+”、大数据、人工智能、云计算等新兴技术的深入发展，促使传统制造业不得不向绿色、高效、智能方向深度变革。信息技术的不断渗入，使得制造业本身的商业模式也逐渐从设计、制造、销售模式向客户需求、产品制造、售后服务等全产业链不断延伸和扩张。

4 算法实现

根据ELM的理论［4，14］，隐含层的参数可以随机地生成。通常可以选择正交的隐含层参数来提高ELM-AE的泛化性能。隐含层的参数可以通过Johnson-Lindenstrauss lemma［13］来计算得到：

算法1：基于ELM-AE的子空间对齐算法

输入：源域数据XS，目标域数据XT，源域数据标签TS，目标域数据标签TT，隐含层节点数 L，激活函数 h(x)。

输出：预测的目标域标签 TT

5 实验验证

本次实验选取 Office［1］和 Caltech256［2］数据集来进行算法的验证。Office数据集上包含webcam图片（W），DSLR图片（D）和 Amazon图片（A）。Caltech256中的图片被标记为C。数据集共包含4个不同领域的数据。A，W，D和C可以组成12组迁移学习问题。迁移学习可以被标记为S→T，S代表源数据域，T代表目标数据域。

本实验将基于ELM-AE的迁移学习算法与其他几种常见的迁移学习算法进行了比较，每组迁移学习分别使用KNN和SVM作为最终分类器，实验结果如表1所示。

表1 （Part I）.KNN分类器的分类准确率（Office dataset+Caltech256）

算法NA[3]DA-SA1[3]DA-SA2[3]PCA[3]GFK[7]ELM-AE C→A 21.53%38.00%40.50%39.00%36.90%39.72%D→A 28.71%29.80%33.00%38.00%32.52%36.89%D→W 62.44%74.00%78.40%83.60%74.92%84.41%W→A 23.64%35.50%38.00%37.40%31.10%34.42%A→C 22.55%30.90%33.30%35.30%35.61%35.74%D→C 26.26%29.60%31.20%32.40%29.86%33.24%W→C 19.21%31.30%31.90%32.30%27.26%33.61%A→D 21.34%34.60%34.70%37.60%35.24%36.86%C→D 21.08%37.40%36.40%39.60%35.21%39.92%W→D 54.01%71.80%72.90%80.30%70.63%80.83%A→W 25.24%35.10%36.80%38.60%34.46%36.76%C→W 20.32%33.50%34.40%36.80%33.71%36.92%

表2 （Part I）.SVM分类器的分类准确率（Office dataset+Caltech256）

算法DA-SA1[3]DA-SA2[3]PCA[3]GFK[7]ELM-AE C→A 44.30%44.50%46.10%44.82%46.62%D→A 36.80%38.60%41.05%37.91%41.15%W→A 32.90%34.20%39.30%37.10%39.02%A→C 36.80%37.30%39.20%38.37%40.88%D→C 29.60%31.60%35.00%31.42%35.93%W→C 24.90%28.40%31.80%29.14%33.17%A→D 36.10%32.50%38.80%37.92%39.76%C→D 38.90%35.30%39.40%36.14%41.46%W→D 73.60%73.60%77.90%74.60%80.76%A→W 42.50%37.30%39.60%39.81%41.05%C→W 34.60%34.20%38.90%34.93%39.10%D→W 75.40%80.50%82.30%79.10%83.88%

6 实验结果分析

在上述实验结果中，表1和表2均被分为两个部分。NA表示的是在该组迁移学习中不涉及特征映射。GFK［7］主要统计源数据和目标数据在几何和统计上特征的改变。PCA［3］表示应用PCA分别得到源域数据和目标域数据的特征空间，然后将源域数据特征映射到目标域数据的特征空间中或者将目标域数据的特征映射到源域数据的特征空间中。DA-SA1［3］表示源数据通过PCA来求得源数据的目标子空间WS。DA-SA2［3］表示目标域数据利用PCA得到目标域子空间WT。表1使用KNN作为最终分类器，在表1的12组迁移学习中，有8组在准确率方面提升明显。表2使用了SVM作为最终分类器，表2中的迁移学习中有11组迁移学习获得了更高的分类准确率。实验结果表明不论最终分类器是选择KNN还是SVM，基于ELM-AE的迁移学习算法都可以获得更高的分类准确率，这证明了基于ELM-AE的迁移学习算法拥有更好的应用性。

7 结语

基于ELM-AE的迁移学习算法相比传统的迁移学习算法拥有着更好的效率。由于ELM-AE和ELM一样在计算过程中不需要迭代，因此计算速度快。相比于PCA，ELM-AE可以很好地处理那些非线性的数据问题。随着数据种类的增多，基于ELM-AE的迁移学习算法在未来会获得更加广泛的应用。

参考文献

［1］Saenko K，Kulis B，Fritz M，et al.Adapting Visual Category Models to New Domains［J］.ECCV，Heraklion，Greece，September 2010：213-226.

［2］Gopalan R，Ruonan L，Chellappa R.Domain adaptation for object recognition：An unsupervised approach［J］.2011，24（4）：999-1006.

［3］Fernando B，Habrard A，Sebban M，et al.Unsupervised Visual Domain Adaptation Using Subspace Alignment［C］//IEEE International Conference on Computer Vision.IEEE，2014：2960-2967.

［4］Kasun L L C，Zhou H，Huang G B，et al.Representational Learning with ELMs for Big Data［J］.Intelligent Systems IEEE，2013，28（6）：31-34.

［5］Jolliffe I T.Principal Component Analysis［J］.Journal of Marketing Research，2002.

［6］Chen B，Lam W，Tsang I，et al.Extracting discriminative concepts for domain adaptation in text mining［C］//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，Paris，France，June 28-July.DBLP，2009：179-188.

［7］Gong B，Shi Y，Sha F，et al.Geodesic flow kernel for unsupervised domain adaptation［C］//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society，2012：2066-2073.

［8］Blitzer J，Mcdonald R，Pereira F.Domain adaptation with structural correspondence learning［J］.Emnlp，2006：120-128.

［9］Pan S J，Kwok J T，Yang Q.Transfer learning via dimensionality reduction［C］//AAAI Conference on Artificial Intelligence，AAAI 2008，Chicago，Illinois，Usa，July.DBLP，2008：677-682.

［10］Pan S J，Tsang I W，Kwok J T，et al.Domain adaptation via transfer component analysis［J］.IEEE Transactions on Neural Networks，2011，22（2）：199.

［11］Torralba A，Efros A A.Unbiased look at dataset bias［C］//Computer Vision and Pattern Recognition.IEEE，2011：1521-1528.

［12］Zwald L，Blanchard G.On the Convergence of Eigenspaces in Kernel Principal Component Analysis［C］//2005：1649-1656.

［13］Johnson W B，Lindenstrauss J.Extensions of Lipschitz maps into a Hilbert space［J］.1984，26（189）：189-206.

［14］Huang G B，Chen L，Siew C K.Universal approximation using incremental constructive feedforward networks with random hidden nodes［J］.IEEE Trans Neural Netw，2006，17（4）：879-892.

［15］Jhuo I H，Liu D，Lee D T，et al.Robust visual domain adaptation with low-rank reconstruction［C］//Computer Vision and Pattern Recognition.IEEE，2012：2168-2175.

［16］Iii H D.Frustratingly Easy Domain Adaptation［J］.ACL，2009.

［17］Leggetter C J，Woodland P C.Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models［J］.Computer Speech&Language，1995，9（2）：171-185.

［18］Huang J，Smola A J，Gretton A，et al.Correcting sample selection bias by unlabeled data［C］//International Conference on Neural Information Processing Systems.MIT Press，2006：601-608..

［19］Ben-David S，Blitzer J，Crammer K，et al.Analysis of representations for domain adaptation［C］//International Conference on Neural Information Processing Systems.MIT Press，2006：137-144.

［20］Pan S J，Yang Q.A Survey on Transfer Learning［J］.IEEE Transactions on Knowledge&Data Engineering，2010，22（10）：1345-1359.

作者

邓万宇，屈玉涛，张倩

出处

《计算机与数字工程》 2018年第05期

上一篇：强规划的最小期望权值求解算法∗

下一篇：基于改进词包模型的车型识别算法∗

《计算机与数字工程》2018年第05期文献

强规划的最小期望权值求解算法∗ 作者：袁润，文中华，戴良伟，陈秋茹

基于ELM-AE的迁移学习算法∗ 作者：邓万宇，屈玉涛，张倩

基于改进词包模型的车型识别算法∗ 作者：康珮珮，于凤芹，陈莹

基于人工蜂群算法的数据分类感知研究∗ 作者：王小君

基于Rife算法的跳频信号瞬时频率估计算法研究∗ 作者：孙微涛，张志宝，罗文峰，汪帆

引入主题链接块因子的候选链接搜索策略研究∗ 作者：周雪，刘乃文

预测Motifs算法的改进评价策略∗ 作者：张斐

基于模糊隶属的低消耗航材界定研究∗ 作者：曾翔，徐廷学，安进，李志强，李凯

基于CS-LDP和LCCP特征融合的人脸识别算法∗ 作者：汤啸，张戈，刘增力

GPS标准定位服务偏移误差的预测和改善∗ 作者：张宝军，王亚辉

基于加权非线性最小二乘的无源协同定位∗ 作者：李思奇

基于区间数学的全局优化算法及其应用探讨∗ 作者：王锦瑞

一种改进的双站时频差目标跟踪高斯和滤波算法∗ 作者：曹亚琴，秦宁宁，杨乐

基于模糊综合评价法的“走出去”企业与华人华侨合作稳定性的仿真与评价∗ 作者：梁雨欣，汪群，李卉

基于深度学习的商品评价情感分析与研究∗ 作者：刘智鹏，何中市，何伟东，张航

基于MAS的时序数据集成管理模型设计∗ 作者：李春生，张勇，张可佳，宋佳

基于句法结构分析的中文文本聚类方法研究∗ 作者：尹积栋，谢茶花，彭崧，刘红，曾昭虎

带有边界条件的城市DEM构建方法研究∗ 作者：林春华，万栋平，邵为真

基于序关系分析法的电力市场监管指标体系评价∗ 作者：陈宏，谢国荣，王迟

用于短文本关键词抽取的TTM_DMM主题翻译模型∗ 作者：王瑞，秦永彬，闫盈盈

基于LSA的历史工作票问题分类异常检测∗ 作者：张航，徐建

基于无线自组网的边境视频监控系统∗ 作者：庞泽峰，刘增力

异构云环境下能效优化的任务调度算法∗ 作者：容会

一种针对正规树模式的复杂事件查询方法∗ 作者：郑利强，廖湖声，苏航，高红雨

直觉模糊满意态模型∗ 作者：鱼先锋，万世昌

面向生产过程的异构数据服务描述语言IO-DSDL的设计与实现∗ 作者：陈彦萍，郭超，杨为惠

海量通信数据管理平台的设计与实现∗ 作者：曾伟忠

面向电力大数据的多数据流实时处理技术研究∗ 作者：孟庆强，胡牧，孙立华，郑浩泉

贝叶斯网络参数学习中的连续变量离散化方法研究∗ 作者：刘晓明，李盼池，刘显德，肖红

基于骨架的单幅图像三维建模∗ 作者：张淑军，刘文晓

杂志信息网