更全的杂志信息网

大规模核方法的随机假设空间方法*

更新时间:2009-03-28

1 引言

大规模核方法是大规模数据分析与挖掘的基本机器学习方法之一。已有工作表明,大规模核方法不仅可给出与深度神经网络相当的学习精度[1],而且模型简单,理论坚实。

核方法是在核诱导的再生核希尔伯特空间(reproducing kernel Hilbert space,RKHS)中训练线性学习器以求解原始学习问题,例如支持向量机(support vector machine,SVM)与核岭回归(kernel ridge regression,KRR)。在高维再生核希尔伯特空间中,核方法训练线性学习器得到的假设具有较好预测性能。但是基于核矩阵的存储与计算使得核方法的计算复杂度至少为O(l2),其中l表示样本规模[2-3]。当训练数据规模较大时,核方法的训练时间过长,存储空间需求过高,从而难以应用于大规模学习问题。

提高核方法可扩展性是核方法学习方法研究一直致力的目标,例如通过分解方法求解对偶二次优化问题的序贯最小优化方法[4]、基于低秩核矩阵近似的算法[5]、并行内点求解法[6]等。在再生核希尔伯特空间中,以上方法虽能在一定程度上缓解核方法对时间和空间的极大需求,但随着噪声样本的增加,支持向量的个数也会线性增加[7]。这将导致核方法不仅在训练阶段,在预测阶段计算开销也将急剧增加。

大规模线性学习算法已有系统研究[8],提出了随机梯度下降法[9]、对偶坐标下降法[10]等。已有结果表明,线性支持向量机虽然在超高维文本和基因分类问题上能取得较好的学习效果,但是对于一般问题,预测精度很难超越核支持向量机[8]。然而,线性或亚线性时间复杂度的求解算法,计算开销小,易于扩展到大规模问题[11],这促进了应用线性学习算法求解非线性问题的研究工作[12-16]。核显式特征表示方法通过显式构造特征映射预处理数据,然后利用预处理后的数据训练线性支持向量机[12]。相比于原始核方法,该方法计算效率高,但只局限于低维的多项式核与串核。

随机傅里叶特征映射方法通过近似平移不变核显式构造特征映射,保证任意两点对应随机特征映射的内积近似其对应的核函数值,为显式构造假设空间求解大规模核方法提供了一种有效途径[14-15]。循环随机特征映射给出一种关于样本维度对数线性时间复杂度的核函数近似方法[16]。本文应用循环随机特征映射构造D维随机假设空间:

 

其中,α∈ℝDΠ为循环随机矩阵;b为随机向量;C为某一常量;FD为循环随机假设空间。基于拉德马赫复杂性(Rademacher complexity),推导了循环随机假设空间的一致泛化误差界,并给出了其相对于再生核希尔伯特空间中最优假设泛化误差的偏差上界。实验验证了本文方法不仅能够显著地提高非线性核方法的计算效率,而且能够保证预测精度。大规模核方法的随机假设空间方法理论坚实,计算高效,实现简单,是一种大规模核方法的高效实现方法。

②东北四省区节水增粮行动项目,应认真落实水资源论证报告书批复,开展项目建设。项目建成后,应按最严格水资源管理制度要求,加强项目区水资源管理,保障项目运行健康、稳定、可持续。建立项目水资源论证后评估制度,结合项目区特点,以水文地质单元为基础,开展项目水资源论证后评估工作,评估项目建设对水资源论证报告书和审批文件的落实情况及项目取水对水资源开发、利用、节约和保护的影响;分析报告书提出的取用水量、取退水影响分析是否合理,退水方案是否可行,水资源节约、保护措施是否有效,进而对报告书的科学性、可行性和有效性进行评估,对存在较大差异的需分析原因,并提出相应的处理和整改建议。

2 预备知识

下面简要介绍与循环矩阵有关的基本知识及随机傅里叶特征映射。

9月份,国内尿素行情整体呈稳中下滑的趋势,局部地区行情补跌,厂家整体出货氛围一般,但是这并不意味尿素价格的定型。从前8个月来看,尿素一直处于涨跌交替的情况,这让很多经销商都处于“丈二的和尚摸不着头脑”的慌乱状态。但是就目前来看,企业普遍开工率低,大多数企业开工率仅在50%左右,出货情况未能满足市场需求。所以,后期尿素价格还有回弹可能。

2.1 循环矩阵

循环矩阵是一种Toeplitz矩阵,有如下形式:

 

可以看到循环矩阵C的每一列都可由它前一列元素循环向下平移一个元素得到。由此可知,循环矩阵可由它的第一列确定。因此,储存m维循环矩阵的空间复杂度为Θ(m)。循环矩阵有如下离散傅里叶矩阵表示形式[17]

可见,北京高院在本案中认为我国《专利法》第69条(一)规定的“专利权用尽”仅仅适用于产品专利或生产方法专利,而不适用于“使用方法专利”。

定理1矩阵C的第一列元素组成的列向量记为c=[c0,c1,…,cm-1]T∈ℝmC为循环矩阵的充要条件为C有如下离散傅里叶矩阵表示形式:

 

其中,m×m维离散傅里叶矩阵;i=表示虚数单位;diag(Fc)表示对角线元素为Fc的对角矩阵;F*表示离散傅里叶矩阵的共轭转置。

(2)随机生成 b1,b2,…,bD~U[-π,π];

2.2 随机傅里叶特征映射

基于Bochner定理,近似平移不变核可显式构造随机特征映射[14]

(3)随机生成 σ1,σ2,…,σD~{-1,+1};

定理2(Bochner定理[18])连续函数 f:ℝd↦ℂ 正定,当且仅当 f为某一有限非负Borel测度μ的傅里叶变换:

 

由定理2可知,只要核函数k(⋅)选择合适(归一化),存在一个概率分布 p(·)的傅里叶变换与之对应,从而有如下推论。

推论1正定平移不变核K(x,y)=k(x-y)可改写为:

 

记样本空间中的数据集合为S={(xi,yi)l i=1},其中xi∈ℝd,对于二分类问题 yi={-1,+1},对于多分类问题yi={1,2,…,M1},M1∈ℕ+,对于回归问题 yi∈[-M2,M2],M2∈ℝ+,其中 i=1,2,…,l。循环随机假设空间是一种显式假设空间,可应用已有的线性/亚线性学习算法求解分类/回归问题。本文提出大规模核方法的循环随机假设空间算法框架,具体描述见算法1。

高斯核函数是一种常见的平移不变核函数。通过计算K(x,y)的傅里叶逆变换可知,即 w~N(0,Id/σ2),其中 Id表示d×d维单位矩阵。应用指数函数的欧拉公式,进一步可将高斯核函数表示为:

新时代,应按照平战一体原则,将战区任务方向与储备布局相结合,将部队执行任务需要与大数据信息网络分析相结合,创新一体化联合作战装备保障方式。

由图4可知,对照组干腌羊火腿在风干过程中,肌浆蛋白发生了降解;分子量66.2 ku~26.0 ku处的蛋白条带逐渐变细,但变化不大,而到成熟期(30 d)时明显变细;20.0 ku处的蛋白条带逐渐变粗;14.4 ku处的条带变化不明显。分子量为66.2 ku和45.0 ku中间出现的条带,随着风干过程的延长逐渐变弱;33.0 ku和26.0 ku中间的条带逐渐变暗甚至消失;26.0 ku~20.0 ku和20.0 ku~14.4 ku中间的出现的条带逐渐变粗、颜色加深,这与高分子蛋白降解产生新的蛋白片段有关。

 

因此 Zw,b(x),Zw,b(y)是高斯核函数的一个无偏估计。通过蒙特卡洛采样方法逼近高斯核,构造如下随机特征映射:

 

其中,wid是一个高斯随机向量,每一个元素均独立同分布采样于 N(0,1/σ2);bi均匀采样于 [-π,π],i=1,2,…,D。以矩阵形式改写ΦRKS

 

其中,WD×d为高斯随机矩阵,该矩阵每一个元素均独立采样于N(0,1/σ2);b为均匀随机向量,每一维均独立采样于U[-π,π];cos(·)为逐点映射函数。由此可以看出,RKS由随机投影与余弦变换组成。可证明 ΦRKS(x),ΦRKS(y)为高斯核的一个无偏估计,近似的方差为[19-20]

国际贸易班87%学生认为这本课程的内容很抽象并难以理解,市场营销班仅有10%的学生认为这本课程的内容很抽象并难以理解;国际贸易班仅有8%的学生认为《商品学》是一门实用的学科,但市场营销班91%的学生都认为这门实用性很强;当问及“如果《商品学》是一门选修课,你愿意选吗?”国际贸易仅有19%的学生愿意选择,而市场营销有92%的学生愿意选择这门课程。

 

3 循环随机假设空间

首先介绍循环随机特征映射,然后应用循环随机特征映射显式构造循环随机假设空间。

病虫害是农业种植中必须注意的部分,也是玉米高产栽培技术推广过程中需要进行配套推广的内容,推广工作人员需要针对所选玉米品种进行病虫害防治内容的筛选,例如某山区多发玉米丝黑穗病和玉米螟,玉米种植过程中需要进行相应的药物处理和施用,用粉锈宁、萎锈灵、速保利、氧环宁缓释剂、多菌灵可湿性粉剂等对玉米的拌种都可以达到防治的好效果,玉米喇叭口期用苏云金杆菌300ml兑水50kg进行喷雾可以有效抑制玉米螟,因此玉米病虫害并不可怕,只要采取了合适的防治手段,就可以得到有效抑制,可以成为玉米高产栽培技术推广应用的有效辅助手段。

3.1 循环随机特征映射

由定理1可知,若能用具有循环矩阵结构的随机矩阵替代式(2)中的无特殊结构的随机矩阵W,能够显著地提高随机特征映射的计算效率,减少对存储空间的需求。为消除循环矩阵行/列相关性,引入拉德马赫随机变量,定义如下循环随机矩阵。

定义1(循环随机矩阵)矩阵Cm维循环矩阵,第一列元素均独立同分布采样于某一连续概率分布,σ0,σ1,…,σm-1为拉德马赫随机变量 (ℙ[σi=1]=ℙ[σi=-1]=1/2,i=0,1,…,m-1)。称矩阵 P=[σ0C;σ1C;…;σm-1C(m-1)·]为循环随机矩阵,其中 Ci·表示循环矩阵C的第i行。

不失一般性,假设d能够整除D,令t=D/d。构造投影矩阵 Π=[P(1);P(2);…;P(t)]∈ℝD×d,其中 P(i)为循环随机矩阵。用Π代替式(2)中的投影矩阵W,得到循环随机特征映射(circulantrandomfeaturemapping,CRF):

 

可证明K(x,y)=[ΦCRF(x),ΦCRF(y)],近似方差与RKS近似核函数的方差相同[16]

3.2 循环随机假设空间

定义2(循环随机假设空间(circulant random hypothesis space,CRHS))基于循环随机特征映射(3)定义如下D维假设空间:

2018年是我国改革开放四十周年。40年来,我国的集邮文化健康蓬勃发展,随着改革开放四十周年纪念活动在各领域的展开,各大媒体纷纷推出特色专栏、专题深入报道,全国集邮文化巡回活动更是火热开启,全国各地的改革开放四十周年邮展也举办得如火如荼。 随着这一系列的主题活动的开展,也让“改革开放四十周年”这一时政题材邮品成为最具热门属性的集藏品。

综上所述,在老师们的教育教学的过程中,应当要明白新课标的最新要求。要看到学生阅读理解能力一直是其学习进步的桎梏,要在上面倾注更多的心血。在对阅读内容训练的侧重方面,应新课标要求,比以往倾注更多的精力在中华传统优秀古诗文上面。在倡导素质教育的今天,我们不应该只看重学生某个方面的能力,在培养和提升学生阅读理解能力的同时也要提高学生的语文综合素质。相信在新时代多媒体技术的支持下,在老师们对教学方法的辛勤钻研下,一定能攻克这道语文教学中的难关,培养出有着较强的阅读理解能力的学生。

 

其中α∈ℝD,称之为循环随机假设空间。

进一步结合循环随机假设空间的一致泛化误差界(定理3)即可证明该定理。

 

其中σ1,σ2,…,σm为独立同分布拉德马赫随机变量。

引理1循环随机假设空间FD的拉德马赫复杂性:

 

证明 定义集合 S={α∈ℝD:||α||C/D},集合

 

机器学习算法的预测性能一般通过输出假设的泛化误差(generalization error)进行度量。假设的泛化误差定义如下:

人是万物之灵,任何一项活动都要靠人去实践,因此建立一支好的会计队伍是会计职业道德建设的根本。那么如何建设会计队伍呢?首先,在选用人上。在用人上除了是否具备从业资格等硬件条件外,更要注重个人的品行。在实践中对那些品行不端的人坚决不能任用。其次,在后续教育上。业务素质的提升离不开后续的教育,教育的途径多种多样,有职称考试、会计人员从业资格的继续教育、自考学历等。企业要为那些想学、肯学的会计人员提供条件、搭建平台。如:对考出的人员进行奖励、给予考前复习公休、统一联系召集继续教育的培训等。通过选用人、教育人打造一支道德品行、业务素质过得硬的会计队伍。

 

其中,ℓ(f(x),y)表示损失函数;P表示X×Y上某个固定但未知的概率分布。正因P未知,所以泛化误差R(f)不可计算,往往通过经验风险(empirical risk)进行估计。经验风险定义:

 

其中,l表示训练样本的规模。循环随机假设空间中任意假设的泛化误差界可由经验风险来界定。

定理3(一致泛化误差)假设间隔损失函数ℓ(y,y′)=ℓ(yy′) 是 L-Lipschitz 连续的。对于任意δ∈(0,1),下列不等式至少以1-δ概率成立:

 

证明基于拉德马赫复杂性,文献[21]给出了期望风险与经验风险之间的关系:

 

根据引理1可知Rl(FD)的上界为,带入上式即可证明该定理。

在循环随机假设空间中,假设的一致泛化误差界收敛率为,与传统泛化误差界收敛率一致。因此,循环随机假设空间是一种可行且高效的假设空间。相对于潜在最优假设的泛化误差,循环随机假设空间中学习算法输出假设的泛化误差收敛率能够达到,接下来具体分析。

Ω表示循环随机假设空间的参数空间,p(ω)为参数空间上的概率分布。与随机循环假设空间FD对应,定义如下假设类:

 

Fp由参数空间Ω上加权余弦函数组成,其权重α(ω)衰减速度高于p(ω)。可证明Fp在再生核希尔伯特空间中是稠密的[22]。因此,再生核希尔伯特空间中假设均可由Fp中假设任意逼近。进一步,可假定目标函数在Fp中,令 fp=argminf∈FpR(f),循环随机假设空间中学习算法输出假设记为̂。

定理4假定学习算法的间隔损失函数ℓ(y,y′)=ℓ(yy′)L-Lipschitz连续。训练样本根据某一固定但未知的概率分布独立生成,记为{(xi,yi)l i=1}。循环随机假设空间 FD的随机参数 ω1,ω2,…,ωD根据 p(ω)独立生成。循环随机假设空间中正则化经验风险最小化算法输出的假设 ̂满足,对于任意δ∈(0,1/2),下列不等式至少以1-2δ概率成立:

 

证明 类似于文献[23],可证明循环随机假设空间相对于Fp的近似误差界:

 

定义3(拉德马赫复杂性[21])函数类F的拉德马赫复杂性定义为:

该定理表明在循环随机假设空间中,学习算法输出假设的泛化误差以速度收敛到最优假设 fp的泛化误差。因此,循环随机假设空间是一种有理论保证且计算高效的显式假设空间。

类似地,应用RKS[14]与Fastfood[24]构造随机假设空间,分别记为RRHS(RKS random hypothesis space)和 FRHS(fastfood random hypothesis space),其计算复杂度与循环随机假设空间构造的计算复杂度对比如表1所示。

 

Table 1 Computational complexities of RRHS,FRHS and CRHS表1 RRHS、FRHS与CRHS构造的计算复杂度

  

方法RRHS FRHS CRHS参数空间Θ(D(d+1))Θ(5D)Θ(3D)构造时间O(lDd)O(lDlbd)O(lDlbd)预测时间O(Dd)O(Dlbd)O(Dlbd)

4 大规模核方法

下面主要针对分类与回归问题,给出大规模核方法的循环随机假设空间算法。

其中,w∈ℝdp(w)为多维变量概率密度函数。

算法1大规模核方法的循环随机假设空间算法

输入:训练数据S={(xi,yi)li=1},随机假设空间维度D,高斯核参数σ,正则化参数λ

输出:循环随机假设空间及假设 f

(1)随机生成 ω1,ω2,…,ωD~N(0,I/σ2);

由定理1可知,对于任意m维向量x,基于快速傅里叶变换(fast Fourier transform,FFT)和快速傅里叶逆变换,循环矩阵投影Cx可在O(mlbm)时间复杂度内计算。

如上所述,“人工智能+教育”客观地发生在教育价值出现全球化取向、学习认知发生颠覆性改变,以及人工智能学习方式显示全天候、移动性和碎片化转向等多重变革的社会环境之中,而并非少数人的突发奇想。“人工智能+教育”开启的教育变革,除需要与日趋智能化的网络信息技术实现深度融合外,还需要针对人工智能的功能特性,以互联网思维整合全球优质教育资源以实现扁平化连接,使教育变革服从于经济全球化创新人才培养的定位,进而就课程设置、教育资源、教育模式、技术平台、学习机制、教学评价和教育管理等,进行教育系统的全方位重构。

初中函数动点问题往往是将整个初中数学的所有函数知识,与动点问题进行融合,主要对学生的综合素质进行检测与考察,通常为学生综合使用数学知识解决问题能力、阅读理解水平、数学思维的形成状况等,想要较好地对函数“动点问题”进行解决具有较强的难度,在解题期间学生经常遇到较多的困难与阻碍,以其解题困难因素为基础,结合实际教学需求与学生解题情况,可明确相应的需求:

(4)构造循环随机矩阵Π及假设空间CRHS;

(5)在CRHS中,利用训练数据S与正则化参数λ,训练正则化线性学习器。

如果一个二元函数K(x,y):X×X→ℝ能够表示成两个一元函数ϕ:X→F内积的形式,即

 

那么称K(x,y)为核。ϕ(·)往往是超高维甚至是无穷维的,根据优化算法的对偶表示,核方法可以在不知道ϕ(·)具体形式的情形下,仅仅依靠 K(·,·)表示学习假设,从而避免了维数灾难,此方法称为核技巧。核K对应的RKHS为:

 

其内积为:

 

由表示定理可知,目标假设可表示为:

 

KSVM与KRR可统一地表示为正则化学习问题:

 

其中,ℓ(·,·)为损失函数;λ为正则化系数。对于支持向量机 ℓ(f(x),y)=max(0,1-yf(x)),对于核岭回归ℓ(f(x),y)=(f(x)-y)2

算法时间复杂度:在隐式特征空间中,基于核技巧求解式(4)的时间复杂度至少为O(l2),只能适用于中等以下规模学习问题。算法1时间复杂度为O(l),可适用于大规模学习问题。

5 实验结果与分析

针对分类与回归问题,验证大规模核方法的循环随机假设空间算法(CRHS)的有效性与高效性。实验中数据为标杆数据集,包括二分类、多分类、回归数据,如表2所示。

 

Table 2 Characteristics of datasets表2 数据集说明

  

数据集splice dna mushrooms usps a9a w8a ijcnn1 mnist Kinematics Bank Puma32H Insurance Ailerons Elevators Housing CTslices YearPrediction(YP)训练集样本数1000 2000 4062 7291 32561 49749 49990 60000 4000 4500 4500 5822 7154 8752 14000 42800 463715测试集样本数2175 1186 4062 2007 16 281 14 951 91 701 10 000 4192 3692 3692 4000 6596 7847 6460 10 700 51 630维度60 180 112 256 123 300 22 784 8 32 32 85 40 18 8 384 90任务二分类多分类二分类多分类二分类二分类二分类多分类回归回归回归回归回归回归回归回归回归

对比算法包括大规模核方法的RKS假设空间算法(RRHS)、大规模核方法的Fastfood假设空间算法(FRHS)与精确核方法(Kernel)。高斯核参数 γ=1/(2σ2)与正则化参数λ均从备选参数集{2-9,2-7,…,27,29}中选择。对于每一种算法,参数(γ,λ)通过5-折交叉验证确定。假设空间维度D经验地设置为几百到几千。所有随机算法在每个数据集上重复10次,记录平均值及均方误差。实验代码用R语言实现,实验平台为Ubuntu Linux server 16.04,实验环境为2.60 GHz Intel®Xeon®CPU和64 GB内存。

在数据集dna和ijcnn1上,比较RRHS、FRHS和CRHS方法预测准确率随着假设空间维度D变化的情况,实验结果见图1。随着假设空间维度的增加,3种方法的预测准确率快速增加然后趋于平稳。RRHS与CRHS方法的预测准确率基本趋于一致,正好与随机特征映射近似核函数的理论结果相符合。验证了应用循环随机矩阵取代无结构的随机矩阵构造随机特征映射和随机假设空间的有效性。当假设空间维度较低时,在同样的假设空间维度设置下FRHS预测准确率不如其他两种随机假设空间方法。这是因为Fastfood近似核函数的方差比其他两种方法近似核函数方差大。当假设空间维度较低时,其对学习精度的影响不能忽略,FRHS的预测准确率不如其他两种方法。当假设空间维度足够高时,3种方法的预测准确率相当。

在每个数据集上,统一将RRHS、FRHS和CRHS方法的假设空间维度D设置足够高,并与精确核方法相比较,预测精度如表3所示。几乎在所有分类与回归数据集上,3种随机方法都能取得与精确核方法相当或者更高的预测精度。这3种随机方法的预测精度之间并没有显著差别。表4与表5分别给出了不同学习算法对应的训练与预测时间。可以看出,几乎在所有的数据集上,RRHS、FRHS和CRHS的训练与预测效率明显高于精确核方法。除了mnist和CT slices这两个相对高维的数据集,在其他数据集上,FRHS的训练和预测效率明显不如RRHS和CRHS。这是因为FRHS需要通过补0的方式预处理数据以适应快速Hadamard变换。当数据维度较低时,快速Hadamard变换带来的效率提升被数据预处理时间所抵消。因此,只有当数据维度较高时,例如mnist,FRHS的训练与预测效率才显著高于RRHS。然而,所提出的CRHS能够一定程度解决FRHS所面临的问题。一般情况下,当原始数据维度d>100时,CRHS能够在保持预测精度的同时显著地提高训练与预测效率。综上,CRHS是一种高效的大规模核方法学习算法,适用于大规模机器学习。

  

Fig.1 Testing accuracies of RRHS,FRHS and CRHS with hypothesis space dimension D图1RRHS、FRHS和CRHS的预测准确率随假设空间维度的变化

 

Table 3 Testing accuracies and MSEs on different datasets表3 不同数据集上的测试准确率和均方误差

  

Dataset splice dna mushrooms usps a9a w8a ijcnn1 mnist Kinematics Bank Puma32H Insurance Ailerons Elevators Housing CT slices YP Kernel 0.869 0 0.954 4 1.000 0 0.955 6 0.851 2 0.990 8 0.905 0 0.984 2 0.372 3 0.024 9 0.022 3 0.056 0 0.004 3 0.002 1 0.017 3 0.010 3 0.010 8 RRHS 0.840 8±0.007 4 0.948 6±0.003 6 0.999 5±0.000 6 0.950 7±0.001 6 0.850 9±0.001 0 0.991 1±0.000 5 0.977 2±0.002 4 0.976 6±0.000 9 0.300 4±0.003 1 0.010 8±0.000 2 0.025 9±0.000 1 0.053 7±0.000 1 0.003 0±0.000 2 0.003 0±0.000 3 0.022 0±0.001 2 0.017 3±0.000 7 0.012 2±0.000 2 FRHS 0.847 9±0.006 5 0.950 6±0.002 6 1.000 0±0.000 0 0.951 3±0.001 8 0.851 7±0.000 4 0.988 7±0.000 5 0.977 4±0.002 2 0.975 7±0.001 2 0.300 7±0.002 9 0.010 8±0.000 1 0.026 1±0.000 2 0.053 6±0.000 1 0.002 9±0.000 1 0.003 7±0.000 9 0.022 2±0.001 8 0.017 2±0.000 9 0.012 2±0.000 1 CRHS 0.871 7±0.005 7 0.947 9±0.004 1 0.999 9±0.000 2 0.946 1±0.003 7 0.850 6±0.000 9 0.988 1±0.000 6 0.976 8±0.003 3 0.969 1±0.002 2 0.302 4±0.001 9 0.012 3±0.002 4 0.026 0±0.000 4 0.053 6±0.000 1 0.003 1±0.000 1 0.003 8±0.000 6 0.025 1±0.002 0 0.018 2±0.000 7 0.012 2±0.000 4

6 结束语

核方法在高维再生核希尔伯特空间中通过核技巧与二次优化技术寻找一个最优假设以求解样本空间中的非线性学习问题。基于核矩阵的存储与计算使得核方法的计算时空复杂度至少为样本规模的平方级。当数据规模较大时,核方法的训练、预测时间过长,存储空间需求过高,难以应用于大规模学习问题。为此提出大规模核方法的循环随机假设空间方法,一方面能够在关于数据维度对数线性时间复杂度内构造显式假设空间,另一方面在显式假设空间中可应用大量已有的线性或亚线性时间复杂度的线性学习算法来求解非线性问题。循环随机假设空间不仅有一致泛化误差界保证,而且其泛化误差能够以的速率高概率地收敛到最优假设的泛化误差。几乎在所有数据集上,本文方法能够在保证预测精度的情况下,大幅度地提高模型训练与预测效率。

进一步工作考虑循环随机假设空间维度D的设置与概率分布N(0,I/σ2)的选择问题。

 

Table 4 Training time on different datasets表4 不同数据集上训练时间 s

  

Dataset splice dna mushrooms usps a9a w8a ijcnn1 mnist Kinematics Bank Puma32H Insurance Ailerons Elevators Housing CT slices YP 0.20 2.07 0.85 11.60 113.40 87.60 73.20 1 446.20 3.40 5.39 2.57 4.49 1.28 0.42 9.36 1 836.00 166 681.00 0.09 1.04 0.11 13.20 10.40 44.30 7.69 250.80 0.64 0.12 0.13 0.50 0.24 0.07 0.11 25.20 16.10 0.30 1.73 0.38 15.90 22.50 49.60 27.10 231.10 2.17 0.73 0.88 1.50 1.24 0.58 2.05 26.00 42.00 0.08 0.86 0.10 11.60 11.80 24.60 9.22 176.40 0.54 0.13 0.13 0.51 0.33 0.09 0.25 12.50 15.40 Kernel RRHS FRHS CRHS

 

Table 5 Predicting time on different datasets表5 不同数据集上预测时间 s

  

Dataset splice dna mushrooms usps a9a w8a ijcnn1 mnist Kinematics Bank Puma32H Insurance Ailerons Elevators Housing CT slices YP Kernel 0.14 0.39 0.26 1.20 13.50 5.31 39.70 85.20 0.53 0.79 0.55 0.79 0.35 0.06 1.05 72.60 996.40 RRHS 0.14 0.26 0.07 1.04 2.93 8.32 4.46 17.90 0.06 0.05 0.08 0.20 0.12 0.04 0.03 4.30 1.31 FRHS 0.76 0.57 0.37 1.53 8.34 10.20 41.20 12.00 1.69 0.51 0.65 0.75 1.08 0.52 0.79 4.54 3.44 CRHS 0.14 0.18 0.06 0.51 3.22 4.09 6.86 5.20 0.20 0.07 0.09 0.20 0.22 0.05 0.09 1.81 1.16

References:

[1]Huang P S,Avron H,Sainath T N,et al.Kernel methods match deep neural networks on TIMIT[C]//Proceedings of the 2014 IEEE International Conference on Acoustics,Speech and Signal Processing,Florence,May 4-9,2014.Piscataway:IEEE,2014:205-209.

[2]Vapnik V N.Statistical learning theory[M].New York:Wiley-Interscience,1998.

[3]Schölkopf B,Smola A J.Learning with kernels:support vector machines,regularization,optimization,and beyond[M].Cambridge:MIT Press,2002.

[4]Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):27.

[5]Drineas P,Mahoney M W.On the Nyström method for approximating a Gram matrix for improved kernel-based learning[J].Journal of Machine Learning Research,2005,6:2153-2175.

[6]Chang E Y,Zhu Kaihua,Wang Hao,et al.PSVM:parallelizing support vector machines on distributed computers[C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems,Vancouver,Dec 3-6,2007.Red Hook:CurranAssociates,2008:257-264.

[7]Steinwart I.Sparseness of support vector machines[J].Journal of Machine Learning Research,2003,4(6):1071-1105.

[8]Yuan Guoxun,Ho C H,Lin C J.Recent advances of largescale linear classif i cation[J].Proceedings of the IEEE,2012,100(9):2584-2603.

[9]Zhang Tong.Solving large sale linear prediction problems using stochastic gradient descent algorithms[C]//Proceedings of the 21st International Conference on Machine Learning,Banff,Jul 4-8,2004.New York:ACM,2004:919-926.

[10]Fan Rongen,Chang Kaiwei,Hsieh C J,et al.LIBLINEAR:a library for large linear classif i cation[J].Journal of Machine Learning Research,2008,9:1871-1874.

[11]Shalev-Shwartz S,Singer Y,Srebro N,et al.Pegasos:primal estimated sub-gradient solver for SVM[J].Mathematical Programming,2011,127(1):3-30.

[12]Chang Yinwen,Hsieh C J,Chang Kaiwei,et al.Training and testing low-degree polynomial data mappings via linear SVM[J].Journal of Machine Learning Research,2010,11:1471-1490.

[13]Liu Yong,Jiang Shali,Liao Shizhong.Approximate Gaussian kernel for large-scale SVM[J].Journal of Computer Research and Development,2014,51(10):2171-2177.

[14]Rahimi A,Recht B.Random features for large-scale kernel machines[C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems,Vancouver,Dec 3-6,2007.Red Hook:CurranAssociates,2008:1177-1184.

[15]Feng Chang,Liao Shizhong.Model selection for Gaussian kernel support vector machines in random Fourier feature space[J].Journal of Computer Research and Development,2016,53(9):1971-1978.

[16]Feng Chang,Hu Qinghua,Liao Shizhong.Random feature mapping with signed circulant matrix projection[C]//Proceedings of the 24th International Joint Conference on Artif icial Intelligence,Buenos Aires,Jul 25-31,2015.Menlo Park:AAAI,2015:3490-3496.

[17]Davis P J.Circulant matrices[M].San Francisco:John Wiley&Sons,1979:1-250.

[18]Rudin W.Fourier analysis on groups[M].San Francisco:John Wiley&Sons,2011:1-285.

[19]Sutherland D J,Schneider J G.On the error of random Fourier features[C]//Proceedings of the 31st Conference on Uncertainty in Artif i cial Intelligence,Amsterdam,Jul 12-16,2015.Corvallis:AUAI Press,2015:862-871.

[20]Yu F X,Suresh A T,Choromanski K,et al.Orthogonal random features[C]//Proceedings of the Annual Conference on Neural Information Processing Systems,Barcelona,Dec 5-10,2016.Red Hook:CurranAssociates,2016:1975-1983.

[21]Bartlett P L,Mendelson S.Rademacher and Gaussian complexities:risk bounds and structural results[J].Journal of Machine Learning Research,2002,3:463-482.

[22]Rahimi A,Recht B.Uniform approximation of functions with random bases[C]//Proceedings of the 46th Annual Allerton Conference on Communication,Control,and Computing,Monticello,Sep 23-26,2008.Piscataway:IEEE,2008:555-561.

[23]Rahimi A,Recht B.Weighted sums of random kitchen sinks:replacing minimization with randomization in learning[C]//Proceedings of the 22nd Annual Conference on Neural Information Processing Systems,Vancouver,Dec 8-11,2008.Red Hook:CurranAssociates,2009:1313-1320.

[24]Le Q,Sarlós T,Smola A J.Fastfood—approximating kernel expansions in loglinear time[C]//Proceedings of the 30th International Conference on Machine Learning,Atlanta,Jun 16-21,2013.Brookline:Microtome Publishing,2013:244-252.

附中文参考文献:

[13]刘勇,江沙里,廖士中.基于近似高斯核显式描述的大规模SVM求解[J].计算机研究与发展,2014,51(10):2171-2177.

[15]冯昌,廖士中.随机傅里叶特征空间中高斯核支持向量机模型选择[J].计算机研究与发展,2016,53(9):1971-1978.

 
冯昌,廖士中
《计算机科学与探索》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号