快捷分类

基于局部敏感哈希的安全相似性查询方案*

更新时间：2009-03-28

1 引言

随着计算机技术迅猛发展,数据存储和计算的密集化程度日益显著.传统的数据存储方式已不能满足大规模数据的管理需求.云计算带来了不间断、高性能、高稳定性的数据外包服务,大部分人开始将复杂、密集的数据从本地转移到灵活、经济的第三方公有云上.但是,这些数据可能是敏感的(例如医学数据,税收文件等)或有重要价值的(例如科学研究数据).为了保证数据的安全性和隐私性,可以在存储前先对数据加密,但加密在很大程度上使数据上的操作变得更加复杂,尤其是不可或缺的搜索操作.在这种需求的驱使下,大量的可搜索加密方案应运而生[1–7].但是,大部分可搜索加密方案只适用于精确查询.而实际上许多应用领域需要相似性数据管理,例如医学信息系统、电子商务等[6];同时相似性查询可以实现当输入的查询项拼写错误时,仍能返回正确的结果.因此,相似性查询具有更好的应用前景.

相似性查询需要解决的问题是:根据查询关键字和度量机制在所有数据项集合中找到与查询关键字最接近的数据项.部分可搜索加密方案可以依赖特定的复杂密码工具在一定程度上实现相似性查询[7,8].然而,这些方案计算开销高,对数据规模较为敏感,不能应用于大规模数据集.还有一些方案在应用时对数据集有一定的限制[3].

Kuzu等人[9]提出了一个可以在大规模加密数据集上进行相似性查询的安全索引方案.它的基本思想是:利用局部敏感哈希对数据进行哈希操作,并使用一个向量记录该数据项,由哈希结果和对应向量组成哈希桶,其中哈希结果用作桶标记.为了满足数据安全性的要求,对桶标记和向量分别进行加密,所有的加密哈希桶形成一个安全索引.再将加密的原始数据和安全索引存储在云服务器上供合法用户使用.查询时先对关键字进行同样的哈希操作,然后将哈希结果和索引中的哈希桶一一比较.最后分析、计算碰撞成功的哈希桶中的向量,返回碰撞次数符合要求的数据项.虽然该方案实现了加密数据上的相似性查询,但是存在一个弊端:可能存在某些查询关键字经哈希处理之后,不能和索引上现有的哈希桶产生有效碰撞,即“空”碰撞问题.方案中未对“空”碰撞情况做任何处理,从而导致查询结果的精确度不高.本文在一定程度上参考Kuzu的方案,对其存在的缺陷进行改进,主要工作包括以下几个部分:

• 可双向搜索的候选集定位策略,解决“空”碰撞问题.在原方案的基础上引入基于复合哈希关键字的度量机制.若没有成功碰撞,则将距离查询关键字最近的哈希桶作为碰撞结果.

• 建立复合哈希关键字间的线性顺序,加快查询速度.建立安全索引时,根据线性顺序对哈希桶进行排序,提高查询时的效率.

• 优化碰撞量化方法.原方案根据是否碰撞来记录碰撞的效果,即碰撞一次和碰撞多次等同对待;本方案将其改进为累积形式,以便更好地衡量碰撞效果.

本文的组织结构如下:第2节介绍一些可搜索加密的相关工作;第3节对要解决的问题进行描述,并提出一些安全要求;第4节介绍方案中用到的定义;第5节阐述建立安全索引和查询的流程,并分析方案的安全性;第6节将方案应用到真实的数据集上,评估查询结果的质量和方案性能;最后第7节总结本文.

2 相关工作

为了实现可搜索加密,研究者们提出了大量的协议和安全定义.其中最具优越性的是无记忆的RAM模型[1],它不会向服务器暴露任何信息.然而,此模型的计算开销太大,不适合应用到实际场景中.有一些方案对其进行修改,以选择性地暴露少量的信息(例如访问模式或搜索模式)为代价,减小计算开销,实现切实可行的可搜索加密方案[2–7].可实际应用的可搜索加密方案第一次由Song等人[4]提出,作者使用一种特殊的加密结构对文件中的单词进行加密.之后,Goh[7]提出一种安全定义,以便形式化可搜索加密的安全要求.类似地,Chang等人[2]提出基于安全定义的模拟,这比Goh的定义更加严格.然而这两者都没有考虑到攻击者可以根据已有查询序列的输出生成新的查询序列.Curtmolade等人[5]提出一种自适应的安全定义,从而解决这个缺陷.

社会主义市场经济的主要规律就是市场竞争，所有企业均处于形式各异的竞争环境当中。大型体育赛事的运作管理者必须深入研究市场上的竞争对手，扩大自己的市场优势，有针对性地开发市场潜力。与赛事市场竞争的产品主要来源于文化市场，2017年云、贵、川三省的文化产业增加值分别为425.05亿元、344亿元、1 200亿元，增速极为可观。从三省文化产业活动增加值的数值来看，文化产业在三省经济发展中的优势地位已然确立。

Li等人[3]提出加密数据上的相似性匹配方案,但该方案的前提是假设数据集中存在目录分类.除了基于索引的方案,还有一些复杂的密码学技术可以实现加密数据上的相似性查询.利用一些距离度量,例如编辑距离[8],可实现安全计算.W ang等人[10]提出一种可以实现多关键词相似性查询的可搜索加密方案.该方案中使用二元组向量和局部敏感哈希函数实现相似性查询,但查询开销很高.

Bösch[11]等人总结了从可搜索加密方案被提出至2014年间研究者们提出的各种方案,并给出了完整、详尽的概述.

3 问题描述

3.1 基于加密数据的相似性查询框架

首先定义,D表示私密数据集合,F i表示D i(D i∈D)的特征集合,C i表示D i的加密形式,I表示建立完成的索引,g表示一组复合哈希函数.基于加密数据的相似性查询框架如下所示:

(1)生成密钥K:根据给定的安全参数,输出一个密钥K;

(2)加密(K,D i):使用密钥K 加密数据D i,输出加密结果C i;

(3)解密(K,C i):使用密钥K 解密数据C i,输出解密结果D i;

(4)建立索引(K,D,g):提取每个数据项D i中的特征F i,应用复合哈希函数g建立索引I并输出;

(5)生成询问(g,f):对输入特征f应用复合哈希函数g生成一组复合哈希关键字T;

(6)查询(I,T,top):根据查询T在索引I上进行查询,输出符合要求的加密数据集合.查询结果按照数据项与特征f的碰撞次数从高到低排列,返回用户要求的碰撞次数最高的前top个数据项.

从资金循环角度来看，“公转商”仅仅是一种形式变通，目的是缓解公积金资金紧张。这种形式既没有增加使用公积金购房者的资金负担和时间成本，还能借助商业银行这一平台满足居民住房需求，有效避免了停贷、断档的情况，可谓一举多得。

3.2 安全要求

本方案中,为了在一定程度上保证私密数据的安全性,要做到以下几点:

• 数据存储安全性:将数据存储到第三方云平台之前,数据的拥有者需使用对称加密技术对原始数据集加密,保障数据的安全性.

• 哈希安全性:如果云服务器可以从索引中推测出关键字和加密文件之间的任何联系,它就可能得出一个文件的主要信息,甚至一个小文件的全部内容[12].因此,应该防止云服务器在索引和数据集上建立此类型的关联映射.在建立索引和关键词查询的过程中,都会用到一组哈希函数,需要对这组哈希函数进行加密,确保只有数据的拥有者和合法使用者才能获得正确的哈希函数.

• 索引安全性:本方案中索引与加密数据一起存储在云服务器上供用户使用.为阻止非法访问,数据处理完成后,必须对所有哈希桶的内容进行加密,确保索引以加密的形式存储.

4 相关定义

4.1 局部敏感哈希

局部敏感哈希是一个解决高维空间中近邻查找的经典算法[13],其基本思想是:原始数据空间中距离很近的数据点经哈希映射到新的空间后,它们仍相邻的概率很高;相反地,原始数据空间中距离很远的数据点在新的数据空间中距离很近的概率很低.局部敏感哈希算法使用局部敏感哈希函数族实现这一目的.

1.3 统计学方法对从本次研究对象中获得的所有数据进行整理归纳，并采用SPSS19.0软件t检测对3组T24细胞增值、凋亡以及PCNA的mRNA及蛋白表达情况进行统计学分析和比较，其中P<0.05表示具有统计学差异。

定义1(r1,r2,p1,p2)-敏感哈希函数族

已知r1,r2表示根据距离度量函数dist:F×F→R计算得到的距离,并且r12;p1,p2表示两个概率,p1>p2.哈希函数族H 是(r1,r2,p1,p2)-敏感的,当且仅当,对于任意一个h∈H,x,y∈F都满足:

• 如果dist(x,y)6 r1,那么必有Pr[h(x)=h(y)]>p1;

这部分,主要评估该方案的性能.分别分析局部敏感哈希函数的参数(m和λ)、数据文件的数量n d对查询性能的影响.为了达到这个目的,在实验设置不同参数的条件下,分别记录查询关键字需要的响应时间.这里的响应时间是从获得一个关键字开始到找到该关键字所在文件的标识为止,包括对关键字进行编码处理的时间.这里,我们使用t i表示第i个查询点的响应时间,n f表示查询关键字集合的大小.则平均响应时间ART的定义如下:

• 如果dist(x,y)>r2,那么必有Pr[h(x)=h(y)]6 p2.

对于 H,可以通过 AND 和 OR 操作将 (r1,r2,p1,p2)-敏感哈希函数族转化为 (r1,r2,p′1,p′2)-敏感哈希函数族,这里 p′1=1−(1−p m1)λ,p′2=1−(1−p m2)λ[14](m 代表 AND 操作的个数,λ 代表 OR 操作的个数).可以不断调整m和λ的大小,扩大两个概率之间的差距,使p′1更接近1,而p′2更接近0.最终得到满足要求的局部敏感哈希函数 g:F→(g1(F),···,gλ(F)).

4.2 基于复合哈希关键字的度量机制

已知复合哈希函数 g以及两个数据对象 p1和 p2,可以得到对应的两个复合哈希关键字 K 1=g(p1)=(k1,1,···,k1,m),K 2=g(p2)=(k2,1,···,k2,m). 用 l(0 6 l 6 m) 表示两个关键字最长共同前缀的长度.

由于建筑电气安装工程的工作环境比较复杂，危险性也比较高，使得很多专业人员都不愿意从事电气安装施工质量管理，致使建筑电气安装工程的施工质量管理人员多为非专业人员。这些非专业人员基本多是具有多年经验的管理人员，或兼任其他管理工作的施工人员，此种情况下，建筑电气安装工程的施工质量管理水平很难得到保障。因此需要通过培训方式或意识教育，来强化施工质量管理人员的整体素质，使得管理人员能够在电气安装施工过程中，对施工现场进行严格的技术监督，确保各种不规范行为能够及时进行查处与解决，尽可能的做到建筑电气安装工程施工质量管理的有序性与规范性。

K 1和K 2之间的距离表示为dist(K 1,K 2),定义如下:

C是标准化因子,对于任意一对复合哈希关键字K 1,K 2,都满足|k1,l+1−k2,l+1|.

在索引中查询时,如果出现“空”碰撞,可按照上述复合哈希关键字的距离度量,返回距离查询关键字最近的结果,有效解决“空”碰撞问题.

对于数据集合D和一个复合哈希函数G,令K={G(p)|p∈D}.针对复合哈希关键字定义一个代数系统K和一个二元关系6 G.

已知两个具有m个元素的复合哈希关键字K 1,K 2,将它们之间的关系定义如下:

pagenumber_ebook=103,pagenumber_book=199

定义一个二元关系6 G,当且仅当K 1<G K 2,或者K 1=G K 2.6G>可以被证明是一个线性顺序集,经典的排序算法(如快速排序、堆排序)都可用来对复合哈希关键字排序.将已排序的复合哈希关键字集合称为K′,查询点的复合哈希关键字称为K q.不失一般性,假设K q/∈K′,复合哈希关键字K i,K i+1∈K′,且满足K i<G K q<G K i+1,则距离K q最近的点不是K i就是K i+1.这样就可以在碰撞不成功的时候快速找到距离查询点最近的点.同时,可使用二分查找快速定位目标,加快查询速度.Liu等人[15]已详细证明了以上距离度量和线性关系可以正确地反应数据对象在原有数据空间中的距离特性.

5 安全关键词相似性查询方案

5.1 建立索引

本方案利用局部敏感哈希将数据映射到一系列哈希桶中,然后建立安全索引.具体步骤如下:

为了评估本方案的效果,用它来实现一个具体的应用.实验中使用的数据项是文本文件,文件的特征值是文件中的单词,查询特征是关键字.首先,需要一个衡量字符串之间相似性的度量机制,然后还需要一个局部敏感哈希函数族以确保可以高效地映射字符串.为了找到符合条件的相似性度量和与之对应的局部敏感哈希函数族,先对字符串做一些改进.最有效且简单的转化机制是B loom Filter[17],利用其对字符串编码之后,可以使用Jaccard距离来衡量字符串之间的相似性.而针对Jaccard距离,可以使用一个高效的局部敏感哈希函数族—M inHash[18]作为基础构造符合实验要求的复合局部敏感哈希函数.

(1)特征提取:令 D i表示数据集中的一个数据项,通过特征提取获取其特征集合 F i={f i1,···,f i z}.

(2)度量空间转换:特征提取完成后,需在度量空间中将特征转化为向量,以便在欧几里得空间衡量特征间的距离[16].然后使用专门为欧几里得距离设计的局部敏感哈希函数族.

本次实验的数据集是一个公开可用的邮件集—Enron dataset[19].参数设置为:m=5,λ=37,n d=3000,n f=1000.其中m是复合哈希关键字的大小,λ表示建立索引时选取的复合哈希函数的个数,n d表示建立索引的文件数量,n f表示查询关键字个数.Göge[20]提供了一个比原方案[9]更实际有效的选择实验参数的方法,因此本实验参考了其中的设置.为了验证本方案的相似性查询效果,查询关键字时,在所有关键字中随机选择其中的25%生成打印错误形式作为实验时的查询关键字.按照参数建立索引,然后使用这些关键字在索引上查询,查询结果按照碰撞次数排序,选取前top个结果返回.

(4)哈希桶排序:得到所有的哈希桶后,应用4.2节中定义的复合哈希关键字上的线性关系,对所有桶的标识进行排序,得到基于B k有序的局部敏感哈希索引.

(5)桶索引加密:使用对称加密算法加密哈希桶的标识和桶中的向量使索引变成安全的.加密桶的标识的目的是保证只有数据的拥有者可以在查询的过程中生成它们,否则攻击者可以很容易地应用局部敏感哈希的步骤得到某个特征对应的哈希桶.同理,桶中的向量也必须加密处理防止暴露重要信息.

pagenumber_ebook=104,pagenumber_book=200

图1 建立安全索引Figure 1 Establishment of secure index

致谢：感谢EvelyIle Barbin、Bjørn Smestad及Hans Niels Jahnke在此文撰写过程中给予的指导和帮助．

5.2 查询流程

这一部分,将描述基于局部敏感哈希的安全相似性查询方案的完整流程.

(1)密钥生成:首先,原始数据的拥有者需要生成三个密钥K id,K d a ta,K vecto r,其中前两个用于对索引的信息进行加密,K d a ta用于加密原始数据.

(5)生成查询:假设用户想要查询包含特征f的数据项.首先应该对f应用度量空间转换函数ρ,得到然后将复合哈希函数g作用于得到 λ个复合哈希关键字K 1,···,Kλ,其中

(3)数据加密:数据拥有者利用密钥K d a ta加密数据集合D中的数据项形成一个加密的数据集E D.

(4)数据转移:将加密数据集E D以及安全索引I存储在云端的服务器上.一旦数据被存储在服务器上,用户应该可以选择性地从服务器上查询需要的数据.因此,数据的拥有者应该向使用者公开以下信息:

经过以上五个步骤,就可以通过局部敏感哈希将原始数据集合映射到一系列经过加密处理的哈希桶中,即得到了一个安全索引.图1展示了建立索引过程中对某个特征进行处理的过程.接下来将介绍一个完整的查询流程.

(1)K d a ta:解密数据集合的密钥;

(2)K id,K vec to r:解密哈希桶中标识和向量的密钥;

(3)ρ:度量空间转化函数;

(4)g:构建索引过程中用到的复合局部敏感哈希函数{g1,···,gλ}.

随着国家投融资体制改革的推进，中国铁路总公司不断深化铁路分层分类建设，未来铁路建设应在传统的融资渠道基础上开拓国内、国际资本市场，积极尝试现代的多元化投融资模式。

(2)建立索引:利用密钥K id和K vec to r以及所有原始的数据集合D,按照5.1节中建立安全索引的步骤建立索引I.

一般情况下，企业为了更好、更快速的提升自身预算工作开展质量，首先需要做好的就是按照科学合理的论证方式解决问题，同时在问题解决期间满足预算编制的时间需求，为后续完善的一套预算编制方案出炉奠定基础。当前时期下，部分企业在响应国家经济体制改革的同时，于预算管理方面也在朝向现代企业管理模式发展，但是受到传统预算管理模式的影响，现阶段的预算编制过程十分简单，同时也不满足预算编制的科学合理性，最终造成企业内部推行的预算管理工作效果差强人意。

(6)查询:用户生成复合哈希关键字K 之后,从服务器端申请得到索引中所有哈希桶的信息.由于索引中的哈希桶标识σB k是经过加密处理的,查找时需要进行比较,所以查找之前需由用户对桶标识解密.另一方面,哈希桶的标识σB k在加密之前是有序排列的,所以可以采用二分查找的方法.在查找的过程中,对需要比较的桶进行解密得到B k,然后比较B k和K.如果二分查找没有找到结果,说明查找特征没有和索引中的哈希桶成功碰撞,此时根据4.2节中基于复合哈希关键字的度量机制选择距离已知特征最近的哈希桶作为碰撞结果.得到碰撞的哈希桶标识之后,对这些桶中的向量进行计算,统计每个数据项与查询特征碰撞成功的次数.最后,根据用户要求,将碰撞次数达到提前设定的阈值的数据项id返回给服务器.

(7)数据解密:服务器得到数据项标识id之后,根据id在数据集中找到对应的加密数据信息,并将加密数据返回给用户.用户得到数据之后,利用密钥K d a ta对数据进行解密即可获得满足查询要求的数据.

pagenumber_ebook=105,pagenumber_book=201

图2 查询过程Figure 2 Search p rocess

以上就是本文提出方案的完整流程.与原方案[9]不同的是,本方案引入了基于复合哈希关键字的度量机制,有效解决“空”碰撞问题.同时利用线性关系对哈希桶进行排序,以便保证在加密索引中查找时的查询效率不受影响.在使用向量记录查询特征与哈希桶的碰撞效果这一方面也进行了改进.

另一方面,用户查找关键字时,需从服务器获取索引信息,在客户端完成查找过程,再将结果提交给服务器.这样做是为了对加密的哈希桶进行比较.

5.3 安全分析

本方案中,索引和数据均以加密形式存储在服务器上.令C={C1,···,C n}表示数据集中加密的数据项,id(C i)为数据项C i的标识,|C i|为数据项C i的大小,I为安全索引.

迄今为止，还没有听到任何一个企业愿意把自己的研发知识、经验技巧以及产品的数字化模型，放在“别人家”的工业互联网平台上。小企业因为担心技术泄露而不敢做，大企业因为担心知识产权而干脆自己开发平台。

pagenumber_ebook=106,pagenumber_book=202

图3 交互流程Figure 3 Interaction process

某次查询中服务器和客户端交互过程如图3所示.用户发起查询,向服务器申请索引,服务器向用户返回加密的索引.随后,由用户在客户端执行查询操作.查询过程中需要使用密钥解密要比较的哈希桶,然后将碰撞“成功”的哈希桶加入列表中.再从中选择碰撞次数达到要求的数据项标识id(C i)并返回给服务器,服务器根据id(C i)将对应的加密数据项C i返回给用户.然而,对于非合法用户,即使发起查询后获得索引I,由于索引是加密的,非合法用户没有密钥,查找操作仍无法进行,即不能获取任何有效信息.

根据上述查询过程,本方案泄露的信息最多为 {(C1,···,C n),(id(C1),···,id(C n)),I}.Kuzu等人[9]已经证明只泄露这些信息时,方案是自适应语义安全的.所以可以说明本方案是安全的.

6 实验评估

建设生态台地的目标是利用湿地与缓冲带原理，维护河堤与河岸的稳定性，对农田区域的地表径流实施初步拦截与沉降。生态台地比农田排水口低，而常水位设计与高程设置相近，对此需要在生态台地上科学种植水生植物，处理好水位的变化问题。同时要科学栽培水生花卉，以此涵养和净化水源，控制农村面源污染系数，起到环保作用。

(3)建立桶索引:将局部敏感哈希应用在上一步得到的向量上.n表示所有要存储在服务器上的原始数据集D的大小,id(Dη)表示数据项Dη的标识符,B k表示哈希桶的标识,V B k表示B k中记录碰撞次数的向量.假设已有一个可用于相似性度量的局部敏感函数族H,根据实际需求,利用AND操作和OR操作将H 构造成符合要求的局部敏感哈希函数族g:{g1,···,gλ}.利用g将每一个特征向量映射到λ个不同的哈希桶中.用g i(f j)表示g i,1 6 i 6λ作用于f j之后的结果,将它作为哈希桶的标识B k,所有包含特征f j的数据项都是这个桶的内容.最初,哈希桶中的向量V B k是大小为n的零向量.若g i(f j)=B k,f i∈Dη,那么V B k[Dη]的值增加1;否则保持不变.对每一个数据项中的每一个特征分别进行哈希操作,哈希结果作为哈希桶的标识,如果这个桶没有出现过,则添加到哈希桶的序列中,并更新哈希桶中的向量;否则直接更新对应桶中的向量.通过以上操作,将所有数据项处理完成,便可以得到一系列哈希桶.

高校是社会培养和输送高级人才的主要场所。在教授学生知识的同时，他们也承担着培养和提高学生综合素质的重要任务。在学校的教育理念中，如果强调礼仪教育，将不可避免地提倡礼仪教育，并在教师和学生之间形成注重礼仪的氛围。这种气氛不可避免地会影响每一位老师和学生的行为。尤其对学生来说，他们是未来社会建设的主力军。毕业后，他们肯定会向社会展示和传播这种行为和时尚，但不重视和倡导礼仪教育会适得其反。因此，每个青年学生的礼仪素养水平反映了高校的教育理念和培养成果。

6.1 查询效果评估

为说明本方案满足相似性查询的要求并评估查询结果的质量,我们使用精确度和召回率作为评价的指标.令D(w)表示数据集中包含w的文件集合,w′是查询时使用的关键字.如前所述,25%的情况下,w ̸=w′.R D(w′)表示使用 w′查询时返回的结果,R D(w)是 R D(w′)中真正包含 w 的文件集合,即它是R D(w′)的子集.因此,关键字 w′的精确度、召回率及集合 W′={w1′,···,w n′}的平均精确度和召回率定义如式(3)所示.

这是对控制性产出词汇的测试。该测试是由Laufer和Nation（1995）设计的产出性词汇水平测试量表（Productive Levels Test,PLT)。产出性词汇量表的词汇取样使用了与接受性词汇测试相同的词汇和相同的等级。区别是在产出性词汇量检测中没有采用词汇的意义和搭配进行检测。而是采用词汇填空的形式进行考核。给出一个词汇的开头的两到三个字母，要求测试者将词汇补充完整。提供第一个字母是为了防止考生填写另一个在给定上下文中语义上合适的单词，但它来自不同的频率级别。测试从2000、3000、5000、10000和学术词汇表中各抽取18个项目。

pagenumber_ebook=107,pagenumber_book=203

在索引上查询1000个关键字的平均精确度和召回率随top的变化趋势如图4所示.

图4(a)展示了原始方案和改进后方案的精确度随top的变化情况.显然,原始方案的精确度随top增大急剧下降,而改进方案的精确度相对来说比较平稳,可以保持在较大的值.图4(b)是召回率的变化情况:原始方案的召回率在top稍微大一点的时候稳定在93%左右,而改进之后,不论top的取值如何变化,召回率都可以保持在这个值左右,甚至更好.

随后,我们将步长设置为10,令top的值从10取到 70,并记录在这样的配置下精确度和召回率变化情况.实验结果如图4(c)所示:从图中可以看出精确度会随top增大而减小,但是减小幅度很小.即使top=70时,精确度依然可以保持在70%左右,相比较原始方案来说效果很好.同样,召回率可以始终保持在一个稳定的值.

以上实验结果说明,本方案中为了提高精确度而做出的改进是有效的.

图4 精确度与召回率随top变化情况Figu re 4 Precision and recall

6.2 性能评估

旅游管理专业建设与企业合作是今后专业建设的发展趋势，两者之间是合作共赢关系。从教师队伍培养来看，学校可以采用“引进来”和“走出去”相结合。一方面邀请企业专家、职业经理人、长期从事一线工作的从业者走进学校成为外聘或挂职教师；另一方面把学校专业教师送到企业中去，进行顶岗锻炼或者挂职锻炼，提高教师的实践能力。从人才培养方面，旅游企业为学生实习提供了场所和岗位，学校可以将顶岗实习、认识实习等实践环节安排在合作企业当中；另一方面企业也能够解决人才匮乏问题，会成为学生毕业就业选择的首选。

为了观察不同设置的查询效率,实验中使用控制变量法,每次只改变其中一个变量,其余变量为默认设置的值.

图5(a)表明查询时间随m的增加而增加,但增加幅度较缓慢.这个现象主要有两个原因:首先,m越大,查询之前对关键字的处理更复杂,需要的时间会更长;另外,在本方案中,当关键字生成的哈希桶没有与索引中的桶成功碰撞的时候,依然会按照基于复合哈希关键字的距离度量找出距离该桶最近的哈希桶,将该桶作为碰撞的桶返回.所以同样的条件下,程序最终返回的碰撞“成功”哈希桶数量是一定的——即λ次碰撞,产生λ个桶,解析这些哈希桶中的向量需要的时间也是基本一致的.但是,当m比较大的时候,建立索引时产生的哈希桶个数会增加,二分查找比较次数变多,导致查询时间变长.基于以上两个原因查询时间会随m的增加而变长,但是影响都不大.不过,需要注意的是,m值太小的时候,查询的准确性有很明显的下降.因为实验中的哈希函数使用的是最小哈希,例如,当m=1的时候,最多只会产生500个不同的哈希桶,不能有效地区分原始数据,导致查询结果不准确.

pagenumber_ebook=108,pagenumber_book=204

图5 平均响应时间变化情况Figure 5 Average response tim e

在其它参数固定时,随着λ增大,查询时间也会随之增加,如图5(b)所示.产生这个现象的原因是当λ增大时,需要在索引中查询的哈希桶变多,查询时间会增加,同时,返回的桶也变多,处理时间变长;另外,得到需要查询的关键字之后,处理关键字需要的时间也会随着λ变大而变长.虽然λ增大不能提高查询方案的性能,但是更有利于返回正确的结果(λ增大相当于比较次数更多).

改变数据文件数量的实验结果如图5(c)所示,数据文件的增加会导致索引中的哈希桶数量更多,查找关键字时需要检查的哈希桶会变多.另一方面,数据文件越多,桶中记录每个文件碰撞次数的向量长度会增加,处理向量(加密、解密、计算碰撞次数等)需要的时间会更多.

综上所述,m和λ的增大都会使查询时间变长,但为保证查询结果的质量,这两者的值不能太小.n d增大也增加查询时间.

7 总结

本文提出了一个基于局部敏感哈希的安全相似性查询方案.首先使用了局部敏感哈希算法生成哈希桶.随后引入基于复合哈希关键字的度量机制,解决了“空”碰撞的问题;同时,定义了复合哈希关键字间的线性顺序,保证查询效率;此外,改进了碰撞的记录方式,更好地量化碰撞效果.最终得到了一个基于局部敏感哈希的安全索引和查询模式以保证可以根据相似性在加密数据上进行高效地查找.为评估本方案的性能和查询效果,将它应用到真实的数据集上.实验数据说明本方案对原方案的缺陷进行了有效的改进,提高了查询结果的精确度和召回率,同时保证较快的响应时间.

References

[1]GOLDREICH O,OSTROVSKY R.Software protection and simulation on oblivious RAM s[J].Journal of the ACM,1996,43(3):431–473.[DOI:10.1145/233551.233553]

[2]CHANG Y C,MITZENMACHER M.Privacy p reserving keyword searches on remote encrypted data[C].In:Applied Cryptography and Network Security—ACNS 2005.Sp ringer Berlin Heidelberg,2005:442–455.[DOI:10.1007/1149613730]

[3]LI J,WANG Q,WANG C,et al.Enabling efficient fuzzy keyword search over encrypted data in cloud computing[J].Computer Science and In formation Systems,2009(9):1–5.

[4]SONG D X,WAGNER D,PERRIG A.Practical techniques for searches on encrypted data[C].In:2000 IEEE Symposium on Security and Privacy(SP).IEEE,2000:44–55.[DOI:10.1109/SECPRI.2000.848445]

[5]CURTMOLA R,GARAY J,KAMARA S,et al.Searchable symmetric encryption:Improved definitions and efficient constructions[J].Journal of Computer Security,2011,19(5):895–934.[DOI:10.3233/JCS-2011-0426]

[6]ZEZULA P.Similarity searching for the big data[J].MONET,2015,20(4):487–496.[DOI:10.1007/s11036-014-0547-2]

[7]GOH E J.Secure indexes[J].IACR Cryptography ePrint Archive,2003:2003/216.

[8]FEIGENBAUM J,ISHAI Y,MALKIN T,et al.Secure multiparty computation of approximations[J].ACM Transactions on Algorithm s,2002,2(3):435–472.[DOI:10.1145/1159892.1159900]

[9]KUZU M,ISLAM M S,KANTARCIOGLU M.Efficient similarity search over encrypted data[C].In:2012 IEEE 28th International Conference on Data Engineering(ICDE).IEEE,2012:1156–1167. [DO I:10.1109/ICDE.2012.23]

[10]WANG B,YU S,LOU W,et al.Privacy-preserving multi-keyword fuzzy search over encrypted data in the cloud[C].In:Proceedings of 2014 IEEE INFOCOM.IEEE,2014:2112–2120.[DO I:10.1109/INFOCOM.2014.6848153]

[11]BÖSCH C,HARTEL P,JONKER W,et al.A survey of provably secure searchable encryption[J].ACM Computing Surveys,2014,47(2):1–15.[DO I:10.1145/2636328]

[12]ZERR S,DEMIDOVA E,OLME D ILLA D,et al.Zerber:R-confidential indexing for distributed documents[C].In:Proceedings of International Conference on Extending Database Technology(EDBT 2008).Nantes,France,March 25–29,2008:287–298.[DO I:10.1145/1353343.1353380]

[13]HAR-PELED S,INDYK P,MOTWANI R.Approximate nearest neighbor:Towards removing the curse of dimensionality[J].Theory of Computing,2012,8:321–350.[DO I:10.4086/toc.2012.v008a014]

[14]RAJARAMAN A,ULLMAN J D.Mining of Massive Datasets[M].Cambridge,UK:Cambridge University Press,2012.[DO I:10.1017/CBO 9781139924801]

[15]LIU Y,CUI J,HUANG Z,et al.SK-LSH:An efficient index structure for approximate nearest neighbor search[J].Proceedings of the VLDB Endowment,2014,7(9):745–756.[DO I:10.14778/2732939.2732947]

[16]FALOUTSOS C,LINK I.Fast Map:A fast algorithm for indexing,data-mining and visualization of traditional and multimedia datasets[C].ACM SIGMOD Record,1995,24(2):163–174.[DO I:10.1145/568271.223812]

[17]SCHNELL R,BACHTELER T,REIHER J.Privacy-p reserving record linkage using bloom filters[J].BMC Medical Informatics and Decision Making,2009,9(1):1–11.[DO I:10.1186/1472-6947-9-41]

[18]BRODER A Z,CHARIKAR M,FRIEZE A M,et al.Min-wise independent permutations[J].Journal of Computer and System Sciences,2000,60(3):630–659.[DO I:10.1006/jcss.1999.1690]

[19]Enron email dataset[OL].Available at http://www.cs.cmu.edu/enron/,2015.

[20]GÖGE C,WAAGE T,WIESE L.Implementing a similarity searchable encryption scheme for cloud database usage[C].In:Grund lagenvon Datenbanken 2017,Proceedings of the 29th GI-Workshop Grund lagenvon Datenbanken.Blankenburg/Harz,Germany,May 30–June 02,2017:48–53.

作者

吴瑾，彭延国，崔江涛

出处

《密码学报》 2018年第02期

上一篇：保序加密技术研究与进展*

下一篇：一种多跳传输环境下安全的数据采集方法*

《密码学报》2018年第02期文献

相关随机分析线性子空间的伪适应性零知识证明* 作者：刘金会，禹勇，杨波，吴万青

适用于移动客户端——多服务器环境的用户认证与密钥协商协议* 作者：刘波，周雨阳，胡飞，李发根

改进的SKINNY算法的不可能差分分析* 作者：洪豆，陈少真

基于多变量公钥密码体制的门限环签名方案* 作者：郭秋玲，向宏，蔡斌，桑军，向涛

具有3或4位全局校验的SD码和PM DS码的构造* 作者：荣幸，杨小龙，胡红钢

ZUC-256流密码算法作者：算法研制组

数据安全与隐私保护专栏序言作者：马建峰，陈晓峰

保序加密技术研究与进展* 作者：郭晶晶，苗美霞，王剑锋

基于局部敏感哈希的安全相似性查询方案* 作者：吴瑾，彭延国，崔江涛

一种多跳传输环境下安全的数据采集方法* 作者：刘镇，韩益亮，杨晓元，潘峰

一种面向位置信息的安全Sky line查询方案* 作者：王维国，李辉

杂志信息网