更全的杂志信息网

面向实时数据流的差分隐私直方图发布技术

更新时间:2009-03-28

作为一种实时动态类型的数据,数据流存在于多种应用领域之中,例如,交通服务实时发布每个区域的汽车数量,以便实现最佳路线计算;医院定期发布一些患有某些疾病的患者的相关信息,这可能有助于及时预防疾病暴发;社交网络不断报道当前正在讨论的话题的用户数量,从而能够列出针对性广告的热门话题等。然而,发布这些统计数据无意中可能会泄露个人的隐私,例如上班人员访问的地点,患者所患疾病的类型等。因此,对实时数据流中的个人信息进行隐私保护也是当前隐私保护的一大热点,但是数据流本身的实时性、连续性、以及数据规模大等特点给实时分析与发布带来了很多挑战。

差分隐私[1]作为当前有效的隐私保护机制之一得到广泛的应用,目前大多数关于差分隐私直方图发布的研究主要集中在静态数据发布上,如文献[2-4]等。对于动态数据的处理与发布,已有一些学者研究了基于发布时间序列集合和流统计的差分隐私保护技术。文献[5]提出了一个二进制流的差分隐私连续计数器来发布敏感信息的统计信息,然而,这些工作所处理的对象是{0,1}二进制流,不能应用于实际场景中。文献[6]采用离散傅里叶变换的方法,不适用于需要在每个时间点释放数据的实时应用。文献[7-8]采用基于模型的方法,假设原始数据是由一个基础过程生成,并使用基于模型的预测来提高发布数据的准确性。其局限性在于模型需要在具有相似模式的公共数据中进行假设或学习,而且当真实数据偏离模型时,该方法可能无效。

与静态数据发布相比,动态数据发布面临一些新的挑战:(1)直方图的发布技术不仅仅适用于二进制数据流,也要应用到实际各个复杂的数据流场景中。(2)动态数据流的实时性和连续性要求发布连续更新的直方图,且新数据一到达就要立即对其进行保护处理然后发布。(3)动态数据的大规模性要求应用较好的噪声添加机制,否则将累加较大的误差,使保护后的数据无可用性。基于此,本文提出了一种有效的实时数据流的直方图发布方法DDHP(Histogram Publication of Dynamic Data),本文主要贡献如下:

(1)为解决实时数据流长度不确定这一难点,DDHP采用滑动窗口模型,发布连续更新的直方图。

(2)DDHP算法采用基于距离的相似度测定方法,通过对多种距离度量分析,对动态数据发布方案进行优化。通过预置阈值T,与距离d进行比较,若d高于阈值T,该数据添加Laplace(拉普拉斯)噪声后发布,若距离d小于阈值T,则直接用前一个已发布的直方图作为当前数据的直方图发布。这种选择性加噪机制保证数据得到保护的同时,降低了噪声误差,且提高了发布速度和数据可用性。

如图2所示,窗口值w=3时,对于窗口w1内的三个数据各预分配的隐私预算,由于D1是数据流的初始数据,直接加的噪声发布,而 D21的距离 d小于T,则将的值发布,且将预分配的ε2的值累积到下一个满足条件的数据εi上,如图2中的D3。图2中D4虽作为窗口中最后一个数据,但因其不满足加噪条件,所以并未将窗口中剩余的隐私预算全分配给它。

1 相关工作

本节主要介绍与数据流和直方图发布相关的研究工作。对实时数据流的直方图发布方案,目前侧重于发布计数器中的事件级别的隐私保护,即在每个时间戳中报告系统自启动以来发生的事件数,在这种情况下,单个事件影响了所有后续数据的发布,该方案将实际的数据流转化为二进制数据流,在每个时间戳统计发布到目前为止所有“1”的个数。当有新数据到达,Dwork[9]为新的计数值添加 1/ε的拉普拉斯噪声,这种方法在“1”密集的数据流中能得到很好的应用,但是对于“1”稀疏的数据流则可能无效。为了解决这个问题,Dwork在文献[9]中提出一种新的思路:延迟发布新的计数器值直到看到预定义的“1”的计数器值为止,文中还解决了其它一些计数问题,如密度估计、均分裁切等。之后文献[10]对文献[9]中的问题作出改进,Dwork的工作着眼于固定长度为T的数据流,并在数据流更新过程中构建一个完整的二叉树。每个节点在T中存储一个带对数刻度的噪声值,然后,在第i次更新时识别它所属的子树,并在添加存储在这些子树的根中的噪声值之后报告给当前计数器。文献[5]也使用类似的方法,该方法在更新的基础上构造一棵完整的二叉树,其中每个节点包含T中的更新总和,在第i次更新时,识别从1到i的最大子树,并报告给存储在其根中的值的总和。另一方面,人们将该方法应用到无限的数据流中,在看到2k次更新后,重新构造一棵新的二叉树。但是这些方法依然仅适用于二进制数据流,且处理速度较慢,在实际应用中无法得到精确的响应。Fan等[11]提出在每个时间戳计数,侧重于用户级隐私。他们假设一个有限的流,并使用采样来减少噪声,通过卡尔曼滤波预测数据流中的部分数据值,然后选择一个时间戳的子集来发布数据以减少总误差,但是这个模型不具备普遍性,应用在不同数据集上的有效性差异较大,且在实际应用中会导致发布的数据不完整及实际响应的精确度降低。Cao等[12]提出在系统启动时,在时间域上指定一组范围查询,每个查询得到一个更新的加噪总和,目标是确定用于回答所有查询的最优策略,通过使用较小子范围的加噪结果来响应较大的范围。文献[13]提出分布式数据流中的隐私保护的监控问题,但该方法仅检测数据流的聚合统计值是否超过预设阈值,而不实际发布具体统计值,进而无法解决本文研究的问题。最近与本文研究最相似的是文献[14]中提出的DSFT算法,采用基于L1距离的距离测度衡量相似度,但是由于L1距离对于数据变化太敏感,效果不理想,所以本文采用余弦距离、马氏距离来与L1距离做对比,选出最优测度。且DSFT没有采用滑动窗口,直接不停地对新数据进行处理,采用的隐私分配策略是二分法,对较大数据流的后半部分数据加噪会产生较大的噪声误差,数据可用性不高。基于此,本文提出一种改进的DDHP算法。

事实证明,基于Smart 3D的航测地形图的生产方法,数学精度完全能够满足1∶2 000地形图要求[1-2]。该方法与传统航测方法比较有以下优势:

分析可知,界面剪应力沿锚固长度呈递减规律分布且具有一致性,界面剪应力在锚固外端口具有最大值。通过公式计算、数值模拟和张拉试验得到的结果相差不大。由于张拉试验中锚固外端施加了约束垫板造成应力集中,故得到的端口剪应力数值大于公式计算结果。公式计算得到的锚固尾端界面剪应力稍大,主要因为在方程求解时,以锚杆尾部轴力为零作为边界条件导致轴力骤降所致。

2 定义与理论基础

本组实验取w=300,分别在出租车和人口两个数据集上取不同ε,对三种距离进行误差分析,实验结果如图5所示。

定义1 近邻关系[14] 给定数据流D和D′,如果两者之间最多相差一个用户,则D和D′称为近邻数据流。

则A满足w-事件级差分隐私

 

不等式中,Pr[·]控制着算法A的随机性,参数ε用来控制隐私保护程度,从不等式可得:参数ε的值越小,A(D)=O和 A(D′)=O的概率值越接近,说明算法A的隐私保护程度越高。

定义3 全局敏感性[1] 对于任意一个函数函数 f的全局敏感度为

 

证明:由于隐私算法A使用独立随机变量,对于输出结果(o1,o2,…,on

噪声机制是实现差分隐私保护的主要技术,对真实数据集加噪常采用Laplace机制[15],Laplace机制通过Laplace分布产生随机变量为真实数据添加独立噪声,以扰动数据的真实值来实现对数据的差分隐私保护。

定义4 Laplace噪声添加机制[14] 对于任意一个函数f:D→R d,若算法A的输出结果满足下列等式,则A满足ε-差分隐私:

 

其中是相互独立的拉普拉斯变量,由式(3)可得:噪声大小与 Δf成正比,与 ε成反比。

3 DDHP直方图发布算法

3.1 滑动窗模型

为了方便讨论,首先给出本文中涉及的参数定义。在本文中,定义数据流为

 

其中,每个数据点Di可以包含复杂信息,而不仅仅是0/1数据流或者是计数信息。采用滑动窗口模型对数据流D进行建模,每个滑动窗口定义为wi,窗口尺寸为w,每个滑动窗口中包含的数据为

 

D经过DDHP算法得到隐私保护后的数据为

 

窗口wi内发布的直方图为Hwi

左坝肩为岩质边坡,岩层属于中生界龙华河群榆林坪组(Arlny)厚层-巨厚层变质二长花岗岩夹黑云角闪斜长片麻岩。整体边坡陡立,坡度为40°~45°。左坝肩岩层产状为 N20°~30°E/NW∠5°~8°,倾向山里偏上游。岩体内主要发育一组节理裂隙,产状为N0°~20°W/SW∠70°~90°,走向与坝肩近垂直,岩层与节理裂隙的组合关系对岩体稳定较为有利,岩体宏厚,岩石坚硬,岩体无软弱夹层,下游无临空面,分析左坝肩边坡整体稳定性好,岸坡稳定。

数据流中的滑动窗口(Sliding Window,SW)[16]是指在数据流上设定一个区间,该区间包含数据流最新的数据,目的是为了更好地获取当前数据的特征,并且可以将无限数据流有限化。随着新数据的到来,滑动窗口以基本窗口为单位不断更新,每进入一个新的基本窗口,之前一个窗口被删除,滑动窗口随之更新一次。因此,滑动窗口每向前滑动一次,就会发布一个新的满足差分隐私的直方图。图1显示了利用滑动窗口模型发布数据流的满足差分隐私直方图的过程。

  

图1 滑动窗口模型下直方图发布过程

本文采用的滑动窗口模型基于w-事件级隐私模型[17],w-事件级隐私是事件级隐私的扩展。如果设置w=1,则它相当于一个符号序列,因此w-事件级隐私退化为事件级隐私。如果w>1,则w-事件级隐私会提供更强的隐私保护,但是也会使总误差增加,但是这个误差基于窗口尺寸w而不是数据流的长度,这保证了算法效用不会随着时间的推移而降低,因此,w-事件级隐私在隐私和效用之间取得了较好的平衡。理想情况下,w-事件级差分隐私机制在数据流上的每个长度为w的子序列上应达到两个要求:(1)分配的隐私总预算为ε;(2)考虑整个子序列上的预算分配机制。这表明w-事件级隐私产生了新的机制,与用户级隐私大不相同。本文中基于w-事件级隐私设计了算法DDPH,以满足这两个要求。

3.2 不同距离测度概述

距离可以用来描述样本之间的相异度,本文采用距离测度来衡量数据间的相似性。设xi和xj是两个 p维的样本点它们之间的距离 d(xi,xj)应满足如下条件:

数据集采用两个真实数据集:出租车数据集(the taxi-drive trajectory data,http:∥research.microsoft.com/apps/)和 US census(http:∥ipu ms.org)。出租车数据集记录了2008年2月2日至2008年2月8日之间的北京某区域10 357辆出租车的运行轨迹,出租车运行轨迹按经纬度记录。该数据集总数据记录约为150万条,轨迹总距离达到900万千米。将该区域按经纬度分成10×10的网格,用DDHP算法发布直方图。US census抽取了102万条记录,每条记录包含年龄与工资属性,其中年龄区间[0,90],工资区间划分成 0,(0,10 000],(10 000,20 000],(20 000,30 000],(30 000,40 000],(40 000,50 000],(50 000,60 000],(60 000,70 000],(70 000,80 000]以及大于80 000十个区间。本文采用均方差MSE(Mean Square Error)来衡量DDHP算法的可用性,表示为:

(1)非负性:d(xi,xj)≥0;

(2)对称性:d(xi,xj)=d(xj,xi);

(3)三角不等性:d(xi,xj)≤d(xi,xm)+d(xm,xj),其中xm也是p维的样本点。

为了让学生进行自主学习、预习和复习,对所学知识进行扩展,在数字化课程建设中还可以建设课程网站,在其中融入电子课件、教师讲课视频、动画视频等教学资源,同时还设置一些导航、资料搜索以及知识地图等相关板块。通过这些内容的构建,为学生提供一个自主学习平台。在实际学习过程中,学生可以依据自己的学习情况,在教师布置的学习任务引导之下,使用这个数字化平台进行课前预习以及课后复习。

本文涉及以下三种距离测度;

“轻用户端,重云端”是目前IT架构的发展趋势[5],云端采用Apache做web服务器,服务端程序设计采用三层架构,即控制层、业务逻辑层和数据访问层,控制层负责接收用户端发送的数据请求,并调用业务逻辑层;业务逻辑层对控制层传来的请求进行二次处理,调用数据访问层,并将调用结果返回到控制层;数据访问层封装了对数据库的增删查改方法。用户端与云端服务器通信遵循HTTPS协议,数据交互采用轻量级JSON数据格式,对来往数据采用MD5加密,确保信息安全。云端架构如图2所示。

(1)L1距离:

 

L1距离虽然计算比较简单,但是对衡量数据的相似度的敏感性较差。

(2)余弦距离:

 

余弦距离是将数据看成坐标中的两个向量,实质计算的是向量的夹角,对于两组数据角度变化敏感,衡量的是变化趋势相似度。

(3)马氏距离:

 

Σ是变量间的样本协方差矩阵,它能导出一个变换矩阵,这个矩阵能使数据完全去相关。从另一个角度看,也就是能够找出一组最佳的基,以紧凑的方式来表达数据,马氏距离能够将一个向量中的两个变量换成相同的尺度。马氏距离既能排除属性相关性的干扰又不受量纲影响,这个特性在衡量数据相似性时展现出了很大的优势,因此马氏距离可以很好地应用在相似度检测上,如文献[18-19]就应用马氏距离计算入侵行为和正常行为之间的相似程度来检测异常入侵。

3.3 隐私预算分配策略

目前普遍使用二分法来分配隐私预算,但根据的性质分析,这种分配策略会使隐私预算前期消耗过快,导致后面的数据因隐私预算分配的过少而产生很大的噪声误差;虽对数据保护程度很高,但过大的数据失真度导致数据丧失了使用价值。这种前陡后缓的分配速度对窗口值较大的滑动窗适用性较低,导致窗口内的一部分数据噪声太大无法使用。因此,本文提出一种适用于各尺寸滑动窗口的隐私预算分配策略BA(Budget Absorption)。BA的主要思想是对于窗口内的w个数据预先均分εi的隐私预算,其中对于D,如果距离d i小于阈值T,则发布前一个加噪直方图,保留它的隐私预算εi;否则,设置参数k记录之前未加噪的直方图的个数,将之前跳过的直方图中保留的所有隐私预算相加得到新的并使用它来发布此次的加噪直方图。为了充分利用每个滑动窗口中的ε,整个过程中会一直检测Di是否为窗口中最后一个数据且满足加噪条件,如果是,则将剩余隐私预算全部分配给它。BA机制充分利用了滑动窗口窗口值固定的特性,使得ε可以以平稳的速度分配,保证窗口内发布的直方图不会发生失真度极高的现象,且适用于任何长度的滑动窗口。

图2是窗口值w=3时BA分配隐私预算的过程。

  

图2 BA隐私预算分配过程

(3)DDHP算法设计了新的隐私预算分配机制BA(Budget Absorption)。其主要思想是对窗口内的w个数据预先均分ε/w的隐私预算,对于未加噪数据的隐私预算则累积到下一个待加噪数据上,因此每个窗口内的隐私预算都能得到最大化利用,且每个数据得到较平均的隐私预算,保证了噪声误差降低的同时数据可用性的提升。

3.4 DDHP算法概述

DDHP算法采用固定的阈值T作为分界点来判断是否对数据加噪,评判过程分为两步:决策和预算分配。决策阶段计算当前到达的原始数据Di和最新发布的数据1之间的距离 d,如果d大于阈值T,则Di被采样,进入预算分配阶段加噪后发布;如果 d小于阈值 T,则直接将 作为输出。图 3描述了DDHP算法的框架。

  

图3 DDHP算法框架

 

在DDHP算法中引入参数c来判断当前待处理数据Di是否为窗口中最后一个数,如果是且满足加噪条件,则将剩余隐私预算全部消耗。由于预置阈值T的选取对加噪过程影响较大,所以在DDHP算法运行前需选取数据的一小段样本做测试选出较优T。

通过对中职学生和高职学生的统计得出如下结果。从表3中可以看出,高职学生的各个维度和总得分情况要偏高于中职学生,且在把握感和一致感两个维度有较高体现。

4 DDHP算法隐私分析

在BA隐私分配策略下,滑动窗口wi内的w个数据都预先分配的隐私预算,对于未取样的数据所分得的隐私预算累积到下一个取样点上。

在构建微纳测头支撑机构的整体刚度模型时,假设除支撑梁以外的其他部件皆为刚性构件,支撑梁的变形处于弹性变形范围内,支撑梁是薄壁梁,不考虑横截面剪应力的影响,故可采用Euler-Bernoulli梁模型[13]。

为了分析DDHP算法的性质,我们先给出差分隐私保护技术的一个组合性质。

性质1 序列组合性质[20] 设D为一个隐私数据集,设 A1,A2,…,An为 n个随机算法,且 Ai(1≤i≤n)满足 εi-差分隐私,则{A1,A2,…,An}在 D上序列组合行操作满足ε-差分隐私,其中

定理1 DDHP算法满足ε-差分隐私。

证明:在BA机制下,每一个εi包括预分配的的隐私预算和之前未分配的的预算,所以由性质1得:

 

且当窗口中最后一个数据满足加噪条件时等号成立。

证毕。

为方便书写,将无限数据流的前 t个数据定义为 St,令 St[i]=Di(i≤t),加噪后输出数据为 o=(o1,o2,…,on),A为一种隐私算法,对于应用在每个Di上的算法A记作 A1,A2,…,An,则 Ai(Di)=oi

据了解,在使用SF投寄快递时,费用一般在30元以内,即使是江浙沪也要收费12元,而选择“四通一达”这些快递公司,价格是6元-8元不等,由此可以看出,相对于其他快递SF的收费较高。根据统计结果表明,SF相对于其他快递,最主要的差别还是价格劣势。也仅仅只有一小部分消费者认为SF的收费是根据它的效率和安全来对比的。那么就说明,大部分消费者认为SF的收费是比较高的。

定理2 如果对于任意i∈[t],满足:

 

定义2 ε-差分隐私[14] 给定数据流D和D′,两者互为近邻关系。给定一种隐私算法A,若算法在D和D′上任意输出的结果O满足下列不等式,则A为基于用户的ε-差分隐私。

现代企业在日常发展的过程中,企业资金代表着一切发展与活动的基础前提,只有确保资金充足,才能为企业的正常运行提供保障,在为企业带来巨大利益回报的同时,促进企业实现经济效益最大化。由此,当代企业在实施管理策略时,必须提高对资金管理的重视,通过做好资金管理,不断提高企业资金的利用效率,进而为实现企业可持续发展创造坚实的资金基础。

其中,R表示所映射的实数空间,d表示函数f的查询维度。

 

因为 Ak满足 εk-差分隐私且 St、S′t是邻近数据流,则:

 

证毕。

(3)应用需要保证指令的时序性,该设备有前序指令未处理,判断指令与前序指令是否一样;如一样则丢弃,如不一样,则看缓存的指令里指令顺序,只执行最后一条指令即可;

因为DDHP采用Laplace机制添加随机独立噪声,且每个滑动窗口分配ε的隐私预算,所以DDHP算法满足w-事件级隐私。

5 实验结果与分析

5.1 实验设置

实验环境为 Inter(R)Core(TM)i7-7700HQ CPU2.80 GHz,8 GB内存Windows 10操作系统。

综上所述,在小学低年级数学教学中应用游戏教学模式,能够改变传统教学模式的禁锢。教师应结合小学生的年龄特点和心理特点选择适合的游戏,充分发挥其教学优点,针对教学中存在的问题,采取措施,深入探索和思考。数学教学方式和游戏教学模式的有效结合,能够培养学生合作学习能力,引导学生将所学知识应用到生活中,应用数学知识解决实际问题,提升小学数学质量,拓展学生思维,为学生未来发展奠定良好基础。

 

5.2 结果分析

基于上述两种数据集,变化T值、隐私预算ε、滑动窗大小w以及与其它两种算法对比来度量DDHP算法的可用性。

5.2.1 不同T值下三种距离的误差变化

本组实验取w=300,ε=1,在出租车数据集上选取10 000条记录取不同的T值依次对L1距离、余弦距离、马氏距离进行误差分析,结果如图4所示。

从图4可知,三种距离计算方法都有先降后升的趋势,T值的选取影响着总体误差,这是因为T取较小值时,扰动误差较大,导致了很大的总误差;当T开始增加时,由于扰动误差减小,采样误差缓慢增大,总误差减小。随着T的进一步增加,拉普拉斯误差缓慢减小,采样误差增大,导致总误差增大。因此处理实时数据前可以选取一个小样本估计出较优的T值,降低总误差。

比对三种距离对T值的变化趋势,L1距离较为平缓,因为L1距离对数据较敏感,距离计算值分布范围较广,因此总误差变化也较为平缓。而余弦距离、马氏距离计算值较为集中,所以T值的选取对总误差影响较大。因此在下列实验中,在出租车数据集上T的值为:L1距离中T=0.06;余弦距离中T=0.23;马氏距离中T=0.12。在人口数据集上做相同的实验分析,T值为:L1距离中T=0.04;余弦距离中T=0.32;马氏距离中T=0.25。

  

图4 不同T值下三种距离的变化曲线

5.2.2 不同ε下三种距离的误差变化

差分隐私是对数据库的隐私泄露问题提出的一种新的隐私定义。在此定义下,数据集的计算处理结果对于具体某个记录的变化是不敏感的,单个记录在数据集中的插入或删除操作,对计算结果的影响微乎其微。所以,一个记录因其加入到数据集中所产生的隐私泄露风险在极小的、可接受的范围内,攻击者无法通过观察计算结果而获取准确的个体信息。所以在差分隐私模型下,即使攻击者具有最大背景知识,即除了某一条记录以外的全部记录信息。在这一最大背景知识下,差分隐私仍然可以保证该记录的隐私信息无法被泄露。首先给出两个数据流的近邻关系。

图5可以看出,随着ε的增大,三种距离算法的总误差都在下降,这符合定理。

马氏距离和余弦距离相对于L1距离的误差降低很多,这是由于L1距离值受到实际数据值变化的影响较大,会导致较大的Laplace误差和采样误差。

图5(b)中余弦距离和马氏距离的差距比图5(a)大,这是因为余弦值实际是角度的变化,在出租车数据集中,出租车运行轨迹以经纬度来衡量,所以用余弦测定相似度也产生较好的效果,但对于人口数据集,余弦距离计算的相似度就不是很精确,而马氏距离测得的距离相对比较稳定,所以只需找到较优的T值就可以使得算法具有较好的可用性,且整体上马氏距离优于其他两种距离。

  

图5 不同数据集中不同ε下三种距离的误差变化曲线

5.2.3 DDHP算法可用性对比

如在破产解除权行使规范和限制中所分析,基于公平原则和利益平衡原则,应当允许合同解除溯及力的例外规则,即对于消费型购房合同,在合同解除后对于消费者已经给付的款项进行特别优待。当破产企业具备继续履行条件时,如管理人主动选择解除商品房买卖合同,则购房消费者丧失了其对原购买房屋的物权期待权,此时消费者受到侵害的权益是其基本的生存保障权。若不给予特殊保障,会对广大购房人或者说消费者的利益造成严重损害,从而构成实质意义上的不公平[16]。不论是从物权期待权的学理基础,还是基于人权保障角度出发,都应当将购房人已经给付的购房款作为特殊优先受偿权予以保障。

本组实验中w=300,对DDHP算法与DSFT算法和sample算法进行对比实验,其中DSFT算法是采用L1距离进行相似度测量且采用二分法进行隐私预算分配,sample是按照固定抽样频率i(mod)3=0进行抽样,对抽样数据用二分法进行隐私预算分配,未抽样数据用最近的一个加噪后的抽样数据发布。依次在出租车数据集和人口数据集上进行实验,实验结果如图6所示。

(3)客家居民点分布密度和河流密度二者具有较高的线性正相关关系,表明客家人也是具有“逐水而居”的特点。客家人住宅选址在水源充足的区域,易于为生活及工农业生产提供充足水源,同时也易于达到客家人对住宅的“前水后山”的风水要求。

  

图6 不同数据集中算法可用性对比曲线

对比DSFT算法和DDHP算法的有效性,可以看出隐私预算分配策略BA机制相比于二分法可以更好地降低总体误差,由于DDHP算法在采样和隐私预算分配上都做了优化,其在两个数据集上均有较好的可用性。

5.2.4 w变化对可用性的影响

本组实验中ε=1,距离测度采用马氏距离,取不同的w值,将三种算法依次在出租车和人口数据集上做实验,观察误差随窗口值变化的变化趋势,实验研究结果如图7所示。

  

图7 不同数据集中w变化对算法可用性的影响

实验结果表明,三种算法的总体误差均随着窗口值w的增加而增加,其原因是w越大,所累积的采样误差和扰动误差会随之增大。对比可得,DDHP误差增加趋势明显低于其他两种算法,其中,sample算法的总体误差随着w增大而增加的最快,这是由于其采用固定速率取样,而w增大取样的加噪点也大幅增多,会累积很大的扰动误差。由于DDHP算法优化了采样和隐私预算分配步骤,所以误差增加速率也较为平缓。

6 结束语

本文主要研究了差分隐私保护下发布数据流形式的直方图,提出了新的算法DDHP,该方法利用滑动窗对数据流进行建模,通过距离测度来动态选择加噪点,并采用新的BA机制进行隐私预算分配,避免累积过大的扰动误差。在理论分析和实验过程中发现隐私预算分配机制是处理实时数据的关键之一,BA机制虽然相比于二分法能有效降低总体误差,但单次处理数据量过大时,总体误差也会有较明显的增大。合理的预算分配策略能大大降低总体误差,且能够提高实时数据处理速率,所以隐私预算分配策略也是以后的研究方向。

参考文献:

[1]DWORK C.Differential privacy[C]∥ International Colloquium on Automata,Languages,and Programming.2006:1-12.

[2]HAY M,RASTOGIV,MIKLAU G,et al.Boosting the accuracy of differentially private histograms through consistency[J].Proceedings of the VLDB Endowment,2010,3(1/2):1021-1032.

[3]XIAO X,WANG G,GEHRKE J.Differential privacy via wavelet transforms[J].IEEE Transactions on Knowledge&Data Engineering,2011,23(8):1200-1214.

[4]LIC,HAY M,RASTOGIV,et al.Optimizing linear counting queries under differential privacy[J].VLDB Journal,2013,24(6):123-134.

[5]CHAN T H,SHIE,SONG D.Private and continual release of statistics[J].ACM Transactions on Information&System Security,2011,14(3):1-24.

[6]RASTOGIV,NATH S.Differentially private aggregation of distributed time-series with transformation and encryption[C]∥ ACM SIGMOD International Conference on Management of Data.2010:735-746.

[7]FAN L,BONOMIL,XIONG L,et al.Monitoring web browsing behavior with differential privacy[C]∥ International Conference on World WideWeb.2014:177-188.

[8]FAN L,XIONG L.An adaptive approach to real-time aggregate monitoring with differential privacy[J].IEEE Transactions on Knowledge&Data Engineering,2014,26(9):1.

[9] DWORK C.Differential privacy in new settings[C]∥ACM-SIAM Symposium on Discrete Algorithms.2010:174-183.

[10]DWORK C,NAORM,PITASSIT,etal.Differential privacy under continual observation[C]∥ ACM Symposium on Theory of Computing.2010:715-724.

[11] FAN L,XIONG L.Real-time aggregate monitoring with differential privacy[C]∥ ACM International Conference on Information & Knowledge Management.2012:2169-2173.

[12]CAO J,XIAOQ,GHINITA G,etal.Efficientand accurate strategies for differentially-private sliding window queries[C]∥ ACM International Conference on Extending Database Technology.2013:191-202.

[13]FRIEDMAN A,SHARFMAN I,KEREN D,et al.Privacy preserving distributed stream monitoring[C]∥ Network and Distributed System Security(NDSS)Symposium.2014:1-12.

[14]LIH,JIANG X,XIONG L,et al.Differentially private histogram publication for dynamic datasets:an adaptive sampling approach[C]∥ ACM International on Conference on Information and Knowledge Management.2015:1001-1010.

[15]DWORK C,MCSHERRY F,NISSIM K,et al.Calibrating noise to sensitivity in private data analysis[J].Proceedings of the VLDB Endowment,2006,7(8):637-648.

[16]CHEN B,LÜZ,YU X,etal.Slidingwindow top-kmonitoring over distributed data streams[J].Data Science and Engineering,2017,2(4):289-300.

[17]WANG Q,LU X,ZHANG Y,et al.Sec web:privacy-preserving web browsingmonitoring with w-event differential privacy[C]∥ International Conference on Security and Privacy in Communication Systems.2016:454-474.

[18]钟敦昊,张冬梅,张玉.一种基于相似度计算的无线传感器网络入侵检测方法[J].信息网络安全,2016(2):22-27.ZHONG Dunhao,ZHANG Dongmei,ZHANG Yu.A method of intrusion detection in wireless sensor network based on similarity algorithm[J].Netinfo Security,2016(2):22-27.(in Chinese)

[19]方跃坚,朱锦钟,周文,等.数据挖掘隐私保护算法研究综述[J].信息网络安全,2017(3):6-11.FANG Yuejian,ZHU Jinzhong,ZHOU Wen,et al.A survey on datamining privacy protection algorithms[J].Netinfo Security,2017(3):6-11.(in Chinese)

[20]MCSHERRY F D.Privacy integrated queries:an extensible platform for privacy-preserving data analysis[C]∥ACM SIGMOD International Conference on Management of Data.2009:19-30.

 
杨庚,夏春婷,白云璐
《南京邮电大学学报(自然科学版)》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号