快捷分类

基于尺度自适应核相关滤波的专利数据挖掘方法

更新时间：2009-03-28

目前，科学技术的飞速发展加之互联网的普及，使得当前申请专利数量呈几何级数的增长，这也使得专利数据库难以便捷快速地分析专利申报［1］。简单统计方法、基于区域空间分布特征方法是当前典型的专利关键词抽取方法［2－5］，但由于这些方法存在数据挖掘准确率低，分类器存在过拟合等问题，如何有效地对海量的专利数据进行采集、训练及如何提高挖掘专利数据的效率成为研究的重点［6］。

为了有效解决数据库管理专利数据的效率低的问题，对专利数据进行数据挖掘。在数据库管理优化方面，胡聪睿等［7］提出了一种对象代理数据库的双向指标存储优化概率，利用代理对象和代理类选择性继承属性和方法，根据源对象实属值得到最有聚簇，但是该方法在专利数据集方面还没有实现代理对象管理。在专利数据模型修正方面，杨武等［8］基于单位检验和效度检验建立误差修正模型，应用在专利数据计量统计，能对我国体现形式为技术能力的专利数据进行有效均衡修正，但是该模型不能均衡修正时间范围长的专利数据；另一种方法是通过循环和枚举代码对专利数据加工［9］，实现子类对父类的快速标引，这种Visual Basic for Application（VBA）只能处理30万条以下的中小量专利数据。为了解决当前专利数据预处理效率低以及处理量小的问题，赵蕴华等［10］设计并实现了一种专利数据预处理系统，提取相关专利信息并处理，再存入专利数据库，但由于日期越界的原因，该系统的实验数据存在数据导入失败的问题；而针对一些专利数据库模型问题，王玉婷等［11］对多个专利数据库从多方面进行对比，将一些常见问题进行了归纳总结。许侃等［12］提出一种提高查询扩展技术来优化专利信息，利用专利文本训练词向量，从海量信息中挖掘目标数据的技术，该技术只比较了4种方法，因此实用性不强。不同学者针对不同的专利数据需求提出了不同的处理方法，处理后的专利数据也在不同领域得到应用，针对汽车产业，文献［13］提出了汽车能源专利数据分析方法，对比欧洲汽车专利数据库，分析技术创新规模和水平。文献［14］基于专利数据的统计分析，得到旅游技术的方面区域空间分布特征，设计旅游业的可持续发展。针对专利知识领域，陈忆群等［15］挖掘不同专利之间的知识关联并进行关键字提取，建立专利知识库的索引并构造背景知识库算法，由于专利数据庞大，该算法还有大量信息未引用。刘龙繁等［16］建立了以功能基为标准的专利文本分类算法，为复杂的、多技术融合的产品创新设计提供了精准有效的专利信息服务。许多学者对研究专利数据做出了贡献，但实时性低，时间和计算开销大及通用性低等问题仍存在于以上这些方法中。

因此，在上述研究的基础上，本文提出了基于尺度自适应核相关滤波跟踪器［17－19］的专利数据挖掘方法，使其具有了计算简易，耗时低等特点。并且能够自动更新挖掘数据跟踪窗口的尺度大小，在一定程度上提高了专利数据挖掘的效率。

1 性能描述

首先，为了对相关专利数据进行匹配，设置数据的关键字或关键词为特征项，并将所有数据集中出现的不同的字或词构成专利词库，即：

苔丝命运的悲惨和结局的惨烈，不禁让读者和评论家对当时的社会产生了质疑，对国家貌似合理的法律产生了怀疑，也从不同角度为苔丝辩护。其中有人认为苔丝杀人是对恶贯满盈的亚力克的正当反击或者是自卫；有人认为苔丝虽然情有可原，但是最终因杀人而被判处绞刑是为其疯狂行为付出的代价。若从法律的视角进行细读，还原苔丝时代的法律环境，不难发现，这是一场冤案！苔丝虽有杀人事实，但在精神状态、法定减刑事由和执行方式上存在众多的辩护理由，可使苔丝保全性命。我们从法律视角对苔丝杀人案进行分析，为苔丝进行辩护。

上述方法已估算出目标位置，在该位置上提取样本的s层主成分分析特征金字塔。用M×N表示当前目标大小，s表示尺度大小，a表示各个特征层之间的尺度因子。使用一维高斯函数作为相应所需的相关输出，并计算特征金字塔相应向量W，获得向量W中的索引i，估算出的最佳目标尺度索引q为：

将查找专利数据过程转化为概率模型，通过概率计算来判断数据文档之间的相似性：

这招果然狠毒，由于我说得有鼻子有眼，她的绯闻在办公室里很快便被传得沸沸扬扬。以往同事对沙莉佩服的态度逐渐转变成了鄙夷蔑视，沙莉孤独的背影愈发显得像植物。只是她似乎更加努力地工作，仍然视客户至上，仍然轻盈浅笑……一周过去，两周过去，我们势均力敌，不分上下。

假设专利数据库平均输出的关键信息总数为n，虚警事件数为nF，那么虚警率Fa可表示为：

鎏金腕表系列包含一系列的原创珐琅作品，深受许多腕表收藏家的喜爱和收藏。雅典表推出限量88枚的戊戌鎏金戌犬腕表，选用18K玫瑰金表壳。搭载瑞士官方天文台认证COSC的UN-815自动上链机心，备有42小时动力储存，直径为40毫米。独一无二的大明火内填珐琅腕表防水达50米，配以优雅大方的鳄鱼皮真皮表带。

其中，Bi表示专利数据集；δ表示专利关键词检索；P表示专利数据文档集中与检索关键词相关的准确率，P＝Buj／Bh，Buj表示在聚类 j中分类 u的数目，Bu表示聚类j中所有对象的数目。同时令Re表示召回率，Re＝Buj／Bj，Bj表示分类 u中所有对象的数目。这里用准确率和召回率来刻画综合评价聚类结果FS：

微信抽奖平台结合图创各个系统的优势，与图书馆的微信公众绑定在一起，可嵌入由图书馆(其他单位机构也试用)举行任一面向大众的活动。不仅帮助图书馆活跃现场气氛，提供参与者的积极性与热情，从而，达到举办活动的终极目标，提升举行活动的意义。而且，能够为微信公众号带来粉丝量，提高微信粉丝活跃度，从而提升图书馆微信公众号的品牌影响力。

算法在对实时事件处理时需要进行去噪处理。先将输出信号减去噪声值，再将减噪值与阈值进行比较，若超过阈值，则判断其为关键信息，那么其概率密度函数QB可表示为：

Step2根据式（1）和式（2）计算提取专利关键信息的准确率P和召回率Re，以及综合评价聚类结果FS；

则一个随机噪声信号被误判为专利数据关键信息的虚警概率F1为：由此可得整个专利数据库的虚警率为：

但是在实际的应用中，由于专利数据信息具有数据量较大且引用率高的特点，仅依靠上述方法对参数进行估计存在一定的误差。因此，本文结合尺度自适应核相关滤波器来修正上述计算结果，以此提高专利数据挖掘精度。

专用方式需为继电保护敷设专用的光纤通道，在此通道中只传输继电保护的信息。由于受光收、发接口工作距离的限制和敷设光缆费用的制约，专用方式的通信距离一般在 100 km 以内。[2]

2 信息提取方法

核相关滤波跟踪器（KCF）是一种基于检测密集采样的跟踪器，其在目标区域的移位利用了循环矩阵理论，为分类器构造了大量样本，不仅解决了稀疏采样的样本冗余性问题，也提升了跟踪器的跟踪性能［20］。传统KCF跟踪算法以核岭回归分类器作为核心，利用核化岭回归方法对目标信息进行训练，得到滤波模板，再构建循环样本矩阵来训练分类器，对样本进行巧妙地变换以使训练数据矩阵具有循环特性，并利用傅里叶变换进行对角化操作，从而达到对目标快速有效检测及跟踪的目的［21］。

结合传统KCF跟踪算法，本文基于尺度自适应来改进算法性能。在岭回归分类器中引入核函数f（Z）＝W T Z，并令样本空间到Hilbert特征空间的非线性变换为 xi→φ（xi）。定义核函数为 k（x，x′）＝〈φ（x），φ（x′）〉，则最优解可表示为：

按比例分配是在实际生活中经常碰到的问题，它的数学意义就是应用比把一个数量按照一定的比例来进行分配，在教学中可以结合实际创设合适的情境，通过一些生产、生活中的实例来呈现教学内容，既能吸引学生，激发学生的学习兴趣，又能让学生体验按比例分配的数学意义，体会数学来源于生活而又服务于生活的辩证思想。

其中，xi为样本；yi为期望输出；λ为一个固定的正则化参数；w为其最优解为样本的线性组合：中，ai为待优化变量。核岭回归的解，其中，K是核矩阵，I是一个单位矩阵，y为期望输出。

对样本x进行移位变换，以获得循环矩阵X：

3.第三种不健康的消费心理则是一种不切实际，贪图享受的消费心理。目前很多年轻人受到拜金思想的影响，心浮气躁，存在借钱消费的现象。由于年轻人并未对消费心理形成正确的经济认识，有可能逐渐形成借贷意识，超过了同期人的心理成熟度，影响其健康成长。

重金属Cd污染已成为贵州喀斯特高原环境下发展无公害农业土地利用的一个重要障碍。环境中Cd超标对人体的骨骼和肾脏造成不利影响，严重时能导致骨痛病，人体过量Cd的摄入，会产生拮抗作用，阻碍微量元素如锌的吸收[6]。Cd在土壤固液相之间的分配主要受吸附解吸反应影响，且在一定程度上决定了各相态Cd浓度及其生物有效性[7-10]。鉴于此，采用批量平衡法，探究镉在贵州不同地区农田土壤中的吸附解吸规律，以期为镉在贵州土壤中的迁移规律和生态治理提供科学依据。

其中，∂表示相对权重参数。当∂＞1意味着准确率所占比重更大，反之意味召回率所占比重更大。那么对任意一个聚类结果，可由每个分类的加权平均值F得到：

同时对循环矩阵通过离散傅里叶变换实现矩阵对角化操作：

其中，F为常量矩阵，F H为F的共轭转置，)x代表生成向量x的离散傅里叶变换。通过采用滑动窗口的方式计算关键信息N所有子窗口的响应，采用了高斯核函数和线性核函数的循环矩阵的第一行组成的向量表示为K XN，响应最大的子窗口即为索引位置，分类器响应为：

其中，bin表示第i个专利数据中的第n个特征值，其值为0或1；n为专利数据集中不同的字或者词的个数，即专利特征项的个数。

其中，d为向量W中的索引值，进而估算出目标尺度。

式中：wij为以距离规则定义的空间权重；xj为j区域的变量值。对Gi(d)值进行标准化，若ZGi(d)为正，且统计显著，则属于高值聚集“热点”区，即农村居民点呈现局部的大规模斑块集聚；若ZGi(d)为负，且统计显著，则属于低值聚集“冷点”区，农村居民点斑块规模低值集聚。

根据上述计算方法，这里基于尺度自适应核相关滤波跟踪器来建立专利数据挖掘算法：

②使用该软件，通过调整大坝物理力学指标“反演”试算，可用较短时间合理确定与工程实际非常接近的坝土物理力学强度指标取值。

Step5由式（14）计算目标尺度，在更新后重新读取目标并训练分类器，同时更新系数和索引位置；

对QB积分可得其概率分布函数F（Q）：

Step3结合获得的综合评价聚类结果以及关键信息的虚警概率，由式（9）计算整个专利数据库的虚警率；

Step4利用建立的目标训练分类器，根据式（12）实现矩阵对角化，并结合式（13）更新索引位置；

Step1初始化。设置确定专利数据库特征项个数、专利数据集数量、专利数据文档概率、尺度大小等参数值；

Step6判断最佳目标尺度索引所对应的信息是否满足算法要求，如果满足则跳转到Step 7，否则跳转到Step 4；

Step7算法结束。

3 仿真实验与结果分析

为了验证基于尺度自适应核相关滤波跟踪器的专利数据挖掘方法的有效性，本文利用MALTAB平台进行仿真实验。对于数据集中的专利数据库，首先进行专利数据库内容的提取。这里设置尺度大小为10，专利数据集的数量为10 000，共5个特征值（收录范围、加工方式、同族数据、法律状态数据、更新速度），相关特征阈值分别为 b1＝0.5，b2＝2，b3＝5，b4＝1，b5＝0.1。表 1给出了本文的专利数据挖掘算法与传统KFC信息提取方法之间的性能状况。从表1可以看出，本文所提算法在准确率、召回率和聚类结果上有着明显优势。

表1 算法对比

关键词个数方法准确率P 召回率Re 聚类结果FS 3 本文方法KFC方法0.558 0.292 4 本文方法KFC方法0.654 0.386 0.487 0.235 0.591 0.318 5 本文方法KFC方法0.609 0.356 0.574 0.287 0.600 0.337 6 本文方法KFC方法0.562 0.337 0.643 0.338 0.592 0.336 7 本文方法KFC方法0.521 0.308 0.701 0.369 0.580 0.329 8 本文方法KFC方法0.478 0.283 0.736 0.394 0.442 0.263 0.770 0.418 0.562 0.323

同时，图1描述的是专利信息关键词个数与召回率的关系，将使用算法和未使用算法时的关系u进行对比，从图中可以看出，召回率在一定程度内随着关键词个数的增加而增加，但当关键词个数超过一定的值时，召回率将趋于一定的稳定，这是由于随着关键词个数的增加，关键词变得难以确定，进而会影响召回率，此外，使用算法的召回率比未使用算法的召回率更高，且本文算法下的召回率比K-Means算法的召回率高，这说明本文所提算法能有效对专利数据进行挖掘。

图1 关键词个数与召回率的关系

图2 描述的是关键词个数与准确率的关系。从图中可以看出准确率会随着关键词个数的增加而增加，当关键词个数增加到一定程度后准确率会趋于稳定，此外，从图中可以看出使用算法可以提高提取的准确率，且本文所提的算法比K-Means更具有优势。

图2 关键词个数与准确率的关系

此外，图3描述的是不同权重参数∂下虚警率与准确率的关系。从图中可以看出，虚警率和准确率呈负相关，这是因为虚警率使得误判的关键词增多，进而影响准确率，在前文中提过当∂＞1时，准确率所占比重更大，从图中可以看出∂越大准确率越高，实验结果验证了前文理论的正确性。

图3 不同权重参数∂下虚警率与准确率的关系

图4 描述的是不同权重参数∂下，专利数据中关键词个数与准确率的关系。由前文所述，当∂＞1时，准确率所占比重更大；当∂＜1时，召回率Re所占比重更大。从图中结果可以看出，在关键词个数相同的情况下，权重参数∂越大准确率越高；当权重参数∂相同时，检测个数越多准确率越高。

图4 不同权重参数∂关键信息个数与准确率的关系

最后，图5描述的是不同权重参数∂下虚警率与召回率的关系。由图5可以看出，在权重参数∂相同的情况下，虚警率越大召回率越高，这是因为系统将错误信息判别成为关键信息，使得提取出的关键词数增多，进而增加召回率；在虚警率相同的情况下，权重参数∂越大召回率越大。

图5 不同权重参数∂虚警率与召回率的关系

4 结束语

针对传统的KCF跟踪算法对尺度变化显著的数据挖掘效率较低的问题，本文提出了一种新的尺度自适应估计的专利数据挖掘方法。该方法首先给出了专利数据挖掘准确率、召回率和虚警率的计算方法。其次，在岭回归分类器中引入核函数，并给出了样本空间到Hilbert特征空间的非线性变换，由此改进传统的核相关滤波跟踪KCF，同时结合尺度自适应实现了对目标专利数据的有效定位和提取。最后，通过仿真实验对比研究了本文提出的专利数据挖掘方法与KFC、K-Means之间的性能差异，并分析了影响算法的关键因素。结果显示，本文所提算法具有较好适应性。在后续研究中，可以考虑结合深度学习和专利数据特征进一步完善数据挖掘算法。

参考文献：

［1］侯立华.专利数据分析系统的设计与实现［D］.北京：北京交通大学，2017.HOU Lihua.Design and implementation of patent data analysis system［D］.Beijing：Beijing Jiaotong University，2017.（in Chinese）

［2］刘晓东，刘大有.数据挖掘专利综述［J］.电子学报，2004，31（b12）：1989－1993.LIU Xiaodong，LIU Dayou.Datamining patent summarization［J］.Acta Electronica Sinica，2004，31（b12）：1989－1993.（in Chinese）

［3］翟东升，蔡万江，陈晨，等.基于MapReduce构建专利技术功效图的研究［J］.情报杂志，2013，32（6）：29－33.ZHAIDongsheng，CAIWanjiang，CHEN Chen，et al.Patent technology functionmap construction based on map reduce［J］.Journal of Intelligence，2013，32（6）：29－33.（in Chinese）

［4］方曙，张娴，肖国华.专利情报分析方法及应用研究［J］.图书情报知识，2007，4：64－69.FANG Shu，ZHANG Xian，XIAO Guohua.Research and application of the patent information analysis［J］.Documentation，Information＆Knowledge，2007，4：64－69.（in Chinese）

［5］蒋一平.数据挖掘技术在专利引文分析中的应用初探［J］.图书与情报，2008，1：81－84.JIANG Yiping.Surveying to the application of data mining in the analysis of patent citation［J］.Library and Information，2008，1：81－84.（in Chinese）

［6］彭茂祥，李浩.基于大数据视角的专利分析方法与模式研究［J］.情报理论与实践，2016，39（7）：108－113.

［7］胡聪睿，刘斌，冯岭，等.对象代理数据库的双向指标存储优化方法［J］.计算机学报，2017，40（41）：1－14.HU Congrui，LIU Bin，FENG Ling，etal.Optimization of bilateral pointer storage in object deputy database［J］.Chinese Journal of Computers，2017，40（41）：1－14.（in Chinese）

［8］杨武，郑红，陈凌志.基于专利数据测度我国技术能力的计量方法与模型研究［J］.管理学报，2011，8（10）：1475－1481.YANGWu，ZHENG Hong，CHEN Lingzhi.Measurement methods and models for China’s technological capability based on patent data［J］.Chinese Journal of Management，2011，8（10）：1475－1481.（in Chinese）

［9］宋寿贵，邹中华.VBA在专利数据加工中的应用［J］.信息技术推广，2015，10（5）：56－57.

［10］赵蕴华，张静.基于数据挖掘的专利数据预处理系统的设计与实现［J］.情报科学，2011，29（12）：1851－1857.ZHAO Yunhua，ZHANG Jing.Design and implemention of patent data preprocessing system based on datamining theory［J］.Information Science，2011，29（12）：1851－1857.（in Chinese）

［11］王玉婷，赵亚娟，李慧美.专利情报研究工作中专利数据源的选择研究［J］.情报杂志，2012，31（11）：83－89.WANG Yuting，ZHAO Yajuan，LIHuimei.The research on selecting patent data source in patent information analysis［J］.Journal of Intelligence，2012，31（11）：83－89.（in Chinese）

［12］许侃，林原，曲忱，等.专利查询扩展的词向量方法研究［J］.计算机科学与探索，2017，1：1－10.XU Kan，LIN Yuan，QU Chen，et al.Research on patent query expansion methods using word embedding［J］.Journal of Frontiers of Computer Science and Technology，2017，1：1－10.（in Chinese）

［13］缪小明，赵静.基于专利数据的汽车产业技术轨道研究［J］.科研管理，2014，35（10）：101－106.MIAO Xiaoming，ZHAO Jing.A study on technological trajectory of vehicle industry based on patent data［J］.Science Research Management，2014，35（10）：101－106.（in Chinese）

［14］宋慧林，马运来.我国旅游业技术创新水平的区域空间分布特征——基于专利数据的统计分析［J］.旅游科学，2010，24（2）：71－76.SONG Huilin，MA Yunlai.Regional spatial distribution of tourism technology innovation level in China：an statistical analysis based on patent data［J］.Tourism Science，2010，24（2）：71－76.（in Chinese）

［15］陈忆群，周如旗，朱蔚恒，等.挖掘专利知识实现关键词自动抽取［J］.计算机研究与发展，2016，53（8）：1740－1752.CHEN Yiqun，ZHOU Ruqi，ZHUWeiheng，et al.Mining patent knowledge for automatic keyword extraction［J］.Journal of Computer Research and Development，2016，53（8）：1740－1752.（in Chinese）

［16］刘龙繁，李彦，侯超异，等.基于功能基的专利信息挖掘与自动分类实验研究［J］.四川大学学报（工程科学版），2016，48（5）：105－113.LIU Longfan，LIYan，HOU Chaoyi，et al.Information extraction based on functional basis and experimental study on automatic classification［J］.Journal of Sichuan University（Engineering Science Edition），2016，48（5）：105－113.（in Chinese）

［17］JIA X，WANG D，LU H.Fragment-based tracking using onlinemultiple kernel learning［C］∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.2012：393－396.

［18］LUO W，LI X，LIW，et al.Robust visual tracking via transfer learning［C］∥Proceedings of IEEE International Conference on Image Processing.2011：485－488.

［19］OZUYSAL M，CALONDER M，LEPETIT V，et al.Fast keypoint recognition using random ferns［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2010，32（3）：448－461.

［20］熊昌镇，赵璐璐，郭芬红.自适应特征融合的核相关滤波跟踪算法［J］.计算机辅助设计与图形学学报，2017，29（6）：1068－1073.XIONG Changzhen，ZHAO Lulu，GUO Fenhong.Kernelized correlation filters tracking based on adaptive feature fusion［J］.Journal of Computer-Aided Design＆Computer Graphics，2017，29（6）：1068－1073.（in Chinese）

［21］谢维波，夏远祥，刘文.改进的核相关滤波目标跟踪算法［J］.华侨大学学报（自然科学版），2017，38（3）：379－384.XIEWeibo，XIA Yuanxiang，LIUWen.Improved object tracking algorithm based on kernelized correlation filter［J］.Journal of Huaqiao University（Natural Science），2017，38（3）：379－384.（in Chinese）

作者

徐兵，项顺伯，吴宪君，胡婧

出处

《南京邮电大学学报(自然科学版)》 2018年第02期

上一篇：基于最短路径修正的多维定标定位算法

下一篇：融合RSF模型及边缘检测LOG算子的图像分割方法的研究

《南京邮电大学学报(自然科学版)》2018年第02期文献

面向GEO／LEO双层卫星网络的抗毁路由策略作者：张胜东，孙力娟，周剑，王娟，韩崇

叠加空时分组码空间调制方案设计作者：张德民，王与凡，查凡超，周佳

基于部分边缘化串行策略的SCMA低复杂度译码算法作者：黄森，宋荣方

基于随机网络演算的物联网业务流量建模与分析方法作者：吴璇，朱晓荣

基于贝叶斯博弈的协作频谱感知算法作者：田赛赛，赵夙，朱琦

多用户OFDM系统基于压缩感知的信道估计中多导频集合设计研究作者：李慧，何雪云，梁彦

基于CEEMD和小波包的降噪方法研究作者：杨孟，王瑾，周西峰，郭前岗

基于变分贝叶斯推理的多目标无源定位算法作者：余东平，何谢，齐扬阳，赖荣煊，袁健

基于Q学习的配电异构无线网络选择算法作者：张佳立，尼俊红

基于框式约束的图像着色快速算法作者：仲玉培，张化朋

用半圆凹槽结构制备聚束的表面等离子体作者：刘爱萍，何文

本刊编委周亮教授获霍英东教育基金会高校青年教师奖 2009/03/28

面向实时数据流的差分隐私直方图发布技术作者：杨庚，夏春婷，白云璐

基于外轮廓模糊处理的多尺度目标检测作者：程艳云，朱松豪，石路路

基于最短路径修正的多维定标定位算法作者：邬春明，杨雪，李二磊

基于尺度自适应核相关滤波的专利数据挖掘方法作者：徐兵，项顺伯，吴宪君，胡婧

融合RSF模型及边缘检测LOG算子的图像分割方法的研究作者：李文杰，夏海英，刘超

基于FOA-RBF网络的城市道路短时交通流预测作者：陈明猜，於东军，戚湧

杂志信息网

基于尺度自适应核相关滤波的专利数据挖掘方法

1 性能描述

2 信息提取方法

3 仿真实验与结果分析

4 结束语