快捷分类

基于频繁密度分布模式的不确定数据流查询方法

更新时间：2009-03-28

近年来，随着例如传感器网络、RFID网络、面向轨迹的服务等新兴应用的出现，不确定数据的管理受到了更多的关注和重视[1-5]，面向解决不确定性问题的方法以及管理手段的需求更加迫切。在不确定数据管理中，不确定对象的相似性查询是一个重要的研究方向，已有非常多的不确定管理项目对其开展了研究并建立了例如Trio[6-7]、CONQUER[8]、MystiQ[9]、URank[10]等复杂的系统。

常用的不确定数据相似性查询方法有Sky-line[11]、Top-K[12]以及Nearest-Neighbor[13]等。Sky-line采用多目标优化算法解决原始的多目标问题，返回的结果集是一组互相不可直接比较优劣的解，每个解中起码有一维优于其他对象，而其他维又不劣于其他对象。而Top-K是通过对不确定对象集合中的每个对象的多个属性进行聚集，计算得到一个Score值，并将对象按照Score值排序，选取出前k个对象作为解。Nearest-Neighbor方法则是计算k个距离查询对象最近的可能性最高的不确定对象。然而这些查询方法更多关注的是不确定对象间的相似性问题(例如距离问题)，却忽视了不确定对象本身的模型准确性与复杂性，本质上讲，不确定对象的建模方法决定了不确定信息的完整性以及不确定对象的相关计算问题。

数据流是一种动态、流式的数据序列，对数据流的处理是动态、顺序的以及一次或有限次的[14]。构成数据流对象的取值是唯一的，但可能是不精确的，即使当数据流中的对象具有较多属性时，这些属性的取值依然是唯一的，这种数据流常称之为确定数据流。然而当观测数据流中的确定对象，却得到更多不唯一的信息时，例如在数据流中的对象的同一属性可以由多个取值表示时，由这种取值不唯一的对象构成的数据流序列，称之为不确定数据流。

在确定数据流的相似性查询问题中，一般研究的对象是两个数据流的距离或者其间的相似性问题，并且这些问题的解都是确定的取值。在不确定数据流的查询问题中，待解决的问题同样是其间的距离或者相似性，但结果不是唯一或确定的值，而是符合某种概率分布的随机数[15-16]。

解决不确定数据流相似性问题大致分为两种思路，一种类似穷举的方法，计算所有不确定对象间的距离，这种方法的好处是模型客观且容易理解，但时间复杂性非常高。另一种是降低维度的方法，这类方法一般假设不确定对象符合某种分布，利用统计信息表示不确定对象，将不确定问题转换为确定的问题求解，其复杂性较低但准确性较差。

利用WordCloud 制作词云时，一般经过三个步骤：一是使用wordcloud.WorldCloud 函数来设置词云对象的有关属性（或者说是参数）；二是利用wordcloud.generate（text）函数或wordcloud.generate_from_frequencies（frequencies[,…]）函数生成词云，前者是根据文本生成词云，后者是根据词频生成词云；三是利用wordcloud.to_file（file_name）函数将词云输出到文件进行保存。

而方差V(x)可表示为

针对上述问题，本文提出一种基于频繁模式挖掘方法的不确定数据流查询方法，方法主要利用非参数估计的思想对不确定对象建模，意在不假设对象符合任何确定或理论密度分布，这种研究方法不受模型和参数的限制而具有良好的灵活性，同时还具有较低的维度使得模型和运算的复杂性均较小。同时，为了满足相似性查询时效的要求，方法结合了模糊语义表述方法以及高阶Markov模型作为提高检索速度的手段。

1 不确定数据流相似性查询方法

本文提出的面向不确定数据流相似性查询方法——HB-UTS,其核心思想是基于非参数密度估计方法的不确定对象建模以及不确定数据流中的固定长度的数据序列间的相似性匹配问题。方法首先利用直方图密度估计对不确定数据流中的对象建模，然后利用聚类方法对得到的直方图密度分布进行模式挖掘，再通过模糊语义表述方法对聚类结果进行抽象，此时可将原本的数值序列转换为语义序列，最后通过高阶Markov构建不确定数据流语义序列的状态转移矩阵，即不确定数据流的索引矩阵。在查询阶段，采用固定滑动窗口的方式处理不确定数据流，对窗口内固定长度的序列数据进行相似性计算，并根据计算条件以及匹配程度返回查询结果。HB-UTS算法主要由不确定数据流的密度分布模型、密度分布模式挖掘、模糊语义表述以及查询方法几个核心部分构成，各部分的具体步骤如下文所述。

1.1 不确定数据流的密度分布模型

不确定性问题分为存在的不确定性与属性的不确定性，本文所讨论的是属性的不确定性，即一个对象具有不唯一的取值。属性的不确定会导致观测对象由于大量的取值而具有较高的维度，增加了建模的难度，并且由于观测值数量的不确定，对象维度规模的动态变化也会使对象的模型难于确定。为了解决上述问题，本文选择以密度分布的形式表示不确定对象，一方面降低了属性的维度，另一方面模型本身不会受样本规模而出现较大变化。但在实际问题中，不确定数据流中的对象一般不符合理论分布(正态分布、均匀分布等)，不能借用简单的典型分布模型对不确定对象建模，因此本文在不假设对象样本符合任何理论分布的前提下，运用非参数估计方法对不确定对象建模，此时，不确定对象的密度分布的形式主要依赖于样本的实际取值，当样本的取值发生较大变化时，模型本身也会随之改变。

由于近年投入不足和管理缺位，面广量大的田间沟渠被填埋、损毁严重，农田灌溉“最后一公里”的问题非常突出，直接影响着河道治理工程的效益。要抓住全市10个县（市、区）列入中央财政小农水重点县的机遇，以县为单位，以耕地灌区化为目标，将所有耕地以灌区为单元进行规划设计、投资建设、运行管理，使之形成由可靠水源和引、输、配水渠道及相应排水沟道组成的灌溉系统，形成田成方、林成网、渠相通、路相连、旱能浇、涝能排的高标准农田建设格局。

为了可以更有效的对密度分布模式挖掘，本文选择基于直方图的非参数估计方法，如图1所示。直方图经常用来描述数据的频率，结果直观且容易理解，并且在模式挖掘的实施过程中，可以有效地降低计算的复杂性。

图1 不确定数据流的非参数建模方法示意图Fig.1 Non-parametric estimation modeling for uncertain data stream

假设不确定数据流集合UTS，其中的不确定数据流，ui中的第j个不确定对象可表示为，l是不确定对象的样本数量，的密度估计函数为表示直方图密度函数的带宽，对于一般的核函数而言是描述不确定对象的样本，Kh是每一个样本对应的核函数，不失一般性，假设各样本是符合同一核函数的，于是有所以有

在直方图密度函数估计中，核函数定义为其中vi表示样本出现在第i个区域中的频数，I(x∈B)表示数据是否属于某个区间的条件，因此直方图密度估计函数可表示为

(1)

因此可以通过上述方法确定不确定对象的密度函数估计为

1.4.2 质量评价采用Cochrane系统评价员手册［9］提供的偏倚评价量表进行质量评价，包括5个方面：（1）随机分配方法；（2）是否分配隐藏；（3）盲法；（4）结局数据的完整性；（5）选择性报告研究结果。

结合上述理论，不确定对象的直方图密度估计的方法步骤如下：

1)给定一个不确定对象的样本大小为l，对其排序并设以及分别为最大和最小样本，确定最小下届a0≤x1；

2)估计组距h，可得组分的界点a0,a1,…,ak，其中ai+1-ai=h，i=0,1,…,k-1，xn≤ak≤xn+h;

3)计算落在每组区间Ai=(ai,ai+1]，i=0,1,…,k-1中的样本频数:v1,v2,…,vk；

4)以h为带宽，v1,v2,…,vk为高作直方图；

5)由直方图估计样本对应总体的密度分布可得

最终构建的模型分3个层次：其中A层是目标层，反映医院药品费用影响因素。B层是准则层，以医院管理-科室管理-药事管理3要素评价体系来反映医院药品费用的影响因素。

构建直方图密度估计的关键就是确定组距h，组距的选择决定了密度函数的性质和总体分布特征，若取值不合理，估计的密度函数相对真实的情况就会有较大的偏差，这里假设不确定对象u的真实密度函数u(x)以及直方图的估计密度为

平方损失风险常用于获取近似的估计密度函数，该值越小，估计的密度函数与真实密度函数越接近。因此本文通过平方损失风险求得合理的组距h值。首先定义平方损失风险：

(2)

此时，考察如式(3)所示的平方损失风险的期望，并经过式(4)的计算，将该损失风险转换为

(3)

(4)

(5)

式(5)中的损失风险包括两项内容：偏差Bias(x)和方差V(x)，偏差用于评估估计密度的精准度，而方差则用于测量估计量的波动变化。其中偏差Bias(x)计算可表示为

(6)

但在现实情况中，由于系统的复杂性，导致可收集到的信息并不遵循任意模型明确且固定不变的分布，统计信息随之不断变化，假设的模型也随之失效。

(7)

式中 n为样本个数。

脂肪失去光泽，偏灰黄甚至变绿，肌肉暗红，切面湿润，弹性基本消失，有腐败气味散出，证明该猪肉已经变质。在冬季气温低，嗅不到气味，通过加热烧烙或煮沸，变质的腐败气味就会散发出来。

首先，为了分析本方法在处理不同形式的不确定数据时的效果，本文对数据集的样本进行随机化处理。对数据集样本中的任意数据流，取数据流中的每个对象，以方差为参数，分别生成符合正态分布以及均匀分布的样本规模为50、100以及500的不确定数据流。随机化方法的本质是将一维的数据流随机化为50、100以及500的高维数据流，并且使样本具有符合理论分布的随机性。

(8)

那么极小化式(10)后可得最佳的带宽h*：

(9)

在确定带宽时，一般假设u(x)为正态分布，可得hopt=3.5n-1/3。

1.2 不确定对象的频繁密度分布模式挖掘

通过上述非参数的密度估计方法，得到了不确定数据流的密度分布模型，使不确定对象的复杂性大大降低。为了进一步优化不确定数据流的表示形式，提高不确定数据流的查询效率，本文通过频繁模式挖掘的方法对数据流中的不确定对象进行挖掘分析，使具有相同密度分布模式的不确定对象进行聚集，然后用聚簇的中心作为不确定对象的代表和索引。

聚类是频繁模式发现的重要手段，主要有DBSCAN、KMEANS、KNN等算法。由于本文的查询方法只对查询过程要求较高的响应速度，对历史数据建模的时间复杂性要求较低，所以选择了聚类效果较好的谱聚类方法。该方法是一种非无督学习过程，相对于其他聚类算法，它能够有效解决数据分布复杂的情况，且收敛于全局最优解。当前部分关于谱聚类的研究集中于利用拉普拉斯矩阵的性质，其中较典型的是基于矩阵摄动理论的谱聚类算法。基于摄动理论的谱聚类算法，相较于传统谱聚类算法，具有自适应的能力，可自动确定聚簇个数。

国家开放大学基层电大既是一个地方高等学历继续教育的主阵地，也是一定区域民众终身学习的优秀教育场所。尤其是多元融合发展的基层电大分校，通过向社会开放其优质的教学资源与优良的教学设施，为一定区域内的民众提供丰富的教育产品和学习资源。基层电大分校最大的特色就是直接面向基层社会，也最易接地气。由于其直接为当地的经济社会发展培育各方面的人才，因而基层电大的发展与区域经济社会发展有着密切的关系。在办学实践中，基层电大充分利用区域内的社会资源，与企业、行业及区域内甚至域外高校推动合作办学，把优质教育资源引入本地，惠及大众，为促进本地经济社会发展培养了很多的实用性高学历人才。

已知不确定数据流i的对象j的密度分布三元组表示为其中x为直方图的柱型中心点，为直方图密度分布，h代表其带宽。

另外，作为Markov状态转移矩阵的扩展，aijh可以同时记录以Ai→Aj→Ah为序列开始的所有不确定数据流序列的地址，在查询时即可同时返回不同概率下所对应不同序列集合。

1)计算S的相似矩阵Q，根据高斯相似性有

现以二阶Markov状态转移矩阵为例说明，已知语义集A1,A2,…,Ak，则有对应状态集A1,A2,…,Ak，可构建转移矩阵为

3)计算拉普拉斯矩阵L的特征值，将其升序排列0<λ1≤λ2≤…≤λn；

杏花岭区是太原中心老城区，地理位置重要，历史文化悠久，双拥工作有着优良的传统和深厚的群众基础。此前，部分退役军人转业后，因各种原因未能享受到相应待遇。各级政府想方设法解决处理，但因问题繁杂，不具统一性，形不成一套完整、可复制的处理方案。太原市杏花岭区对此高度重视，双拥办以人性化视角，因人而异，以真挚的情感和灵活的工作方法，千方百计为他们解决困难，不仅体现了政府的关怀与温暖，还与老兵们碰撞出几何倍数的正能量效应。

4)计算特征值序列的差分，当差分的方差明显变化时得k个特征值及其对应的特征向量；

5)利用前k个特征向量构成矩阵，再通过k-means聚类方法聚类；

6)最后，得到k个聚簇的聚类结果。

该方法仍以遵循谱聚类的基本算法程序，不同之处在于它对拉普拉斯矩阵的特征值序列进行了判断，即当矩阵的第i+1个特征值相对于其前一个第i个特征值变化较大时，则由前i个特征向量所构成的特征矩阵所代表的元素间的关系越稳定，因此可利用特征值的差值来确定聚簇的个数，但多大程度的差值可以得到最佳的聚簇个数需要通过计算特征值的方差来判断。此时，可得k个聚簇中心V={v1,v2,…,vk}，并标记不确定对象表示属于以vk为中心的第k号聚簇。

1.3 基于语义关系的不确定数据流查询方法

为了能够高效地对不确定数据流进行查询，就需要对不确定数据流序列进行简约的存储以及构建高效的索引结构。因此本节首先利用语义对不确定数据流进行抽象表示及存储，然后再通过索引优化的方法实现高效的不确定数据流查询策略。

1.3.1 不确定数据流的模糊语义关系表示

通过谱聚类方法，得到不确定数据流中不确定对象的抽象，即各聚簇的中心集合V，每一个聚簇中心代表了属于这个聚簇的不确定对象。现假设语义集A1,A2,…,Ak，为V={v1,v2,…,vk}赋予语义，使A1→v1,A2→v2,…,Ak→vk。由于V是UTS的一个抽象，所以UTS同样可利用语义集合进行表示。

例如，一个不确定数据流ui包含的不确定对象序列为{ui,1,ui,2,…,ui,n}，已知其中各不确定对象所属的聚簇，可将其表示为{v1,v2,v5,v1,v4,v7,…,v3}，并可根据语义进一步抽象的为A1,A1,A5,A1,A4,A7,…,A3。此时，该语义序列的一阶模糊关系为A1→A1,A1→A5，二阶模糊关系为A1A1→A5,A1A5→A1，高阶关系以此类推。

本文主要针对上海市典型的城市道路施工产生的噪声和扬尘影响提出有针对性的环境保护措施，为工程建设和环境管理提供科学依据，做到既发展经济又保护环境，进而实现可持续发展，同时为城市道路工程施工期的环境保护提供相关技术和方法参考。

所有患者均接受多层螺旋CT和X线平片诊断。（1）X线片。指导患者采取站立位，采用联影-DR X线拍片，行X线胸片正位、侧位检查。（2）多层螺旋CT。仪器为联影16排CT机，指导患者取仰卧位，先增强扫描和容积扫描全胸，之后薄层扫描病灶部位，参数设置：层厚30mm、层距3.0mm，电流120mAs，电压140kV，旋转时间0.6s。增强扫描时，选用碘佛醇注射液为造影剂，采用高压注射器经肘静脉团注给药，剂量80～100mL，注射速度3.0mL/s。以厚度1.0mm方式对病灶部位行薄层扫描。

1.3.2 不确定数据流查询方法

不确定数据流查询的核心问题查询效率以及查询准确性，查询效率指面对大规模不确定数据时能够在有限且较短的时间内返回查询结果，查询准确性则是指查询的结果不仅是准确的，而且在概率统计上是有意义的。为了解决这两方面问题，本文选择了基于高阶Markov模型的索引结构。根据Markov理论，Markov的状态转移矩阵描述了状态之间的概率转移关系，具有概率统计意义，并且在高阶关系中，高阶状态转移矩阵还可以描述状态之间的复杂对应关系，所以高阶Markov模型作为不确定数据流索引具有好的适用性。

状态转移矩阵中，各元素都是非负数，且各行元素之和为1，各元素用概率表示，状态之间在一定条件下是可以互相转移的。假设矩阵P，其中各元素表示为pi,j，根据上述定义有，0≤pi,j≤1，且

2)构造拉普拉斯矩阵L=D-Q，其中D为对角矩阵,且

若a1,1,1是语义关系的一种统计，则可进行归一化处理使

根据谱聚类方法过程，不确定数据流集合UTS={u1,u2,…,un}，不确定对象的直方图密度集合

如图2所示，状态转移矩阵中(a)A1、A2行记录了以A1,A2起始的数据流序列，(b)列表示A1、A2的子序列A1、A2、A3与A1、A2、A2，其中以A1、A2、A3起始的序列占60%，A1、A2、A2起始的数据流序列占40%。

高阶Markov状态转移矩阵的行列组合代表了不同的语义序列，阶数则代表了所管理索引结构的大小，二阶矩阵只保留了样本语义序列的前三位信息，而其他部分则由概率表示，阶数越高可表示更精准的语义序列。矩阵中的元素除了存储了语义序列的可能概率，还管理着以该语义序列为起始的语义序列的地址信息，查询算法会优先遍历概率较高的地址信息中的子序列，匹配成功则返回结果，若失败则遍历概率相对较小的地址信息中的子序列。

图2 二阶Markov状态转移矩阵Fig.2 Second order Markov transition matrix

2 实验分析

类似于相关不确定数据流的研究方法中对数据集的选择[16]，本文同样选择UCR数据集作为基础数据。其中，本文选择了12个数据集作为实验样本：50words、Adiac、Beef、CBF、Coffee、ECG200、Lighting2、Wafer、OliveOil、SwedLeaf、Trace、Yoga，基本覆盖各个领域的数据流形式，数据的规模如表1所示。

2.1 实验思路

本节将通过实验方法对提出的数据流查询算法进行验证，首先本节将阐述验证本算法有效的实验思路，包括数据集的选择、实验的设置、对比的算法以及指标的选择，然后是对实验结果的相关分析和结论的阐述。

表1 数据流数据集Table 1 Data stream datasets

数据集规模长度50words450270Adiac390176Beef47030CBF500128Coffee50028ECG20019996Lighting2121637Wafer6 164152OliveOil57030SwedLeaf1 125128Trace200270Yoga300427

对于不确定数据流研究方法有效性的验证，由于诸多因素的限制使得真实不确定数据较难获得也难于处理。因此，实验仿真时，常用的方法是对确定的数据流对象增加不确定性，例如使数据流对象中的元素转化为均值和方差稳定不变的符合某种理论分布的随机数，若需增加随机的程度，可同时混合多种理论分布。

一般的做法是以确定数据流中的对象为均值，然后选择某密度分布作为分布特征，然后生成一定数量的随机样本，经常使用的密度分布为指数分布、正态分布和均匀分布，但是这种单一分布特征的不确定化方法往往使数据过于规律，而且在实际问题中数据的分布特征也是比较复杂，并不趋向某一种特定的纯分布，所以本文采用的随机化方法是在确保均值不变的前提下，将某两种密度分布组合，例如指数分布与正态分布或均匀分布与正态分布。

2.2 实验结果分析

将式(6)、(7)代入式(3)，可得损失风险：

推特等新媒体正逐渐成为民众参政议政的“公共领域”，为人们集会并就社会现实中关乎共同利益的议题开展讨论从而实现政治参与、通过舆论为市民社会和国家形成联系提供了一个虚拟或想象的社区（Habermas 1991：30）。推特事实上已成为美国公民讨论民生、参与政治的平台，诸如医保、移民、控枪等问题持续成为热议话题，包括政治人物在内来自不同行业的社会精英、公众人物参与到这种草根色彩浓郁的平台讨论中，实际上又增加了这一平台的影响力。

然后，根据上文所述谱聚类的摄动理论，分析不确定数据流样本在不同规模以及方差在[0.01，2]区间变化时，模型拟合效果最佳条件下的聚簇个数变化情况。通过实验可以发现，在均匀分布的随机性条件下，如图3(a)，HB-UTS方法并不受样本规模的影响，在T=50、T=100以及T=300时的最佳聚簇个数基本稳定在25～30。在高斯分布的随机性条件下，如图3(b)，HB-UTS方法同样也不受样本规模的影响，T=50、T=100以及T=500时的聚簇变化曲线基本相同。所以本方法在处理大规模不确定数据对象时，依然可以保持模型的稳定性。另外，在均匀分布的随机性条件下，样本虽然具有不确定性，但不确定性的分布较为均匀，模型可以在样本方差为[1，2]时依然保持较好的拟合能力。然而在高斯分布的随机性条件下，随着样本方差的增加，样本取值密度的复杂性随之增加，使得模型所需聚簇个数随方差的增加而减少，在方差为2时聚簇个数仅有2～3个，HB-UTS方法的建模效果随之下降。

为了能在更复杂的情况下验证本方法的有效性，本文最后在数据流数据集上进行了HB-UTS、DUST以及PROUD算法的实施，比较其间的效果差异。本文选择了高斯分布以及各50%的高斯分布与均匀分布的混合分布两种策略和方差为0.2的条件下对样本进行随机化。本文选择F-Measure作为评价指标，F-Measure是信息检索领域的常用评价指标，P代表准确率，R代表召回率，在一般情况下。当样本的随机性为符合高斯分布的样本时，如图4中样本的分布模式相同，使得HB-UTS算法能够较好地识别不确定数据流中各元素间的关系，索引结构能够准确保存序列模式，所以在同分布或不确定数据流序列的分布模式有规律的情况下，HB-UTS能够较为准确地获得查询结果。当随性为高斯分布与均匀分布各50%的随机混合时，如图5，样本的分布随机选取，样本间的关系随机性较强，使得方法较难提取不确定数据流的序列模式，这就导致索引的准确性较低，查询结果误差较大。

转变传统的思想观念，重视特许商品与形象衍生商品等大型体育赛事资源的开发与利用；充分调研目标市场，及时知晓大众的消费行为、消费习惯以及对商品的各种要求，并在这个基础上，对赛事资源进行再开发与再生产[4]；打通销售途径，拓宽销售渠道，为大众提供更优质、更便捷的购物渠道；积极主动地与相关执法部门联合，打击各种假冒、“山寨”赛事商品的生产与销售行为，对赛事资源知识产权的保护力度进行不断强化。

普惠金融的概念最早是2005年联合国在宣传小额信贷年时提出的,2008年国际金融危机之后,在世界银行、国际货币基金组织等国际组织的努力下,普惠金融也渐渐成为了一种发展战略与理念，它不仅关乎金融结构的调整，而且还与金融体制变革息息相关。但是自从普惠金融体系建立以来，其在一些发展中国家取得了很大的突破与成功，比如中东、亚洲、非洲、拉丁美洲等。由于普惠金融能够切实地推进国家经济的发展，使得它发展为一种金融组织模式。所以，世界上的很多国家对此进行学习，并应用到自己的国家中。

图3 不同不确定性条件下的聚簇个数变化Fig.3 Cluster numbers with different uncertainty

图4 高斯分布随机化后的F1值对比Fig.4 F1 comparison of Gaussian distribution randomization

图5 高斯分布与均匀分布随机化后的F1值对比Fig.5 F1 comparison of mixture of Gaussian and uniform distribution randomization

3 结论

1)本方法可对属性级以及存在级的不确定数据流建模，有效保存其中的不确定性信息；

下面以D、E两个区域作为重点研究对象，在四川省中江、松潘等地区进行了实地调研，从负荷分布情况出发，以电压质量作为评估依据，采用DIGSILENT搭建了低密度负荷区的单电源辐射状[4]配电网拓扑模型，并以此为基础进行配电网不同线径型号、不同负荷量的潮流仿真计算，在文献[3]框架内进一步得出低密度负荷区10 kV中压线路的细化标准。

2)基于频繁模式挖掘以及模糊语义的方法，可识别数据流的序列模式，并通过Markov索引进行快速匹配；

3)通过随机化仿真实验，可知HB-UTS对不同规模的不确定数据流都具有稳定和较小的模型复杂性，在处理大规模数据时也可以确保算法的时效性；

4)当样本的不确定性体现为密度分布模式相同或者不确定对象间的密度分布模式具有规律时，HB-UTS相对于其他的相似性查询方法具有较好的查询准确性，而当这种模式为完全随机时，查询效果则较差。

参考文献：

[1] RE C, DALVI N, SUCIU D. Efficient top-k query evaluation on probabilistic data[C]//Proceedings of the 23rd International Conference on Data Engineering. Istanbul, Turkey, 2007: 886-895.

[2] JEFFERY S R, GAROFALAKIS M, FRANKLIN M J. Adaptive cleaning for RFID data streams[C]//Proceedings of the 32nd International Conference on Very Large Data Bases. Seoul, Korea, 2006: 163-174.

[3] TRAN T, SUTTON C, COCCI R, et al. Probabilistic inference over RFID streams in mobile environments[C]//Proceedings of the 25th IEEE International Conference on Data Engineering. Shanghai, China, 2009: 1096-1107.

[4] CHEN Lei, ÖZSU M T, ORIA V. Robust and fast similarity search for moving object trajectories[C]//Proceedings of 2005 ACM SIGMOD International Conference on Management of Data. Baltimore, Maryland, 2005: 491-502.

[5] LJOSA V, SINGH A K. APLA: indexing arbitrary probability distributions[C]//Proceedings of the 23rd IEEE International Conference on Data Engineering. Istanbul, Turkey, 2007: 946-955.

[6] SARMA A D, BENJELLOUN O, Halevy A, et al. Working models for uncertain data[C]//Proceedings of the 22nd International Conference on Data Engineering. Atlanta, GA, USA, 2006.

[7] WIDOM J. Trio: a system for integrated management of data, accuracy, and lineage[C]//Proceedings of the Biennial Conference on Innovative Data Systems Research., 2005: 262-276.

[8] FUXMAN A, FAZLI E, MILLER R. ConQuer: efficient management of inconsistent databases[C]//Proceedings of 2005 ACM SIGMOD International Conference on Management of Data. Baltimore, Maryland, 2005: 155-166.

[9] DALVI N, SUCIU D. Efficient query evaluation on probabilistic databases[J]. The VLDB journal, 2007, 16(4): 523-544.

[10] SOLIMAN M A, ILYAS I F, CHANG K C C. URank: formulation and efficient evaluation of top-k queries in uncertain databases[C]//Proceedings of 2007 ACM SIGMOD International Conference on Management of Data. Beijing, China, 2007: 1082-1084.

[11] 赵越, 王意洁, 王媛, 等. 一种高效的不确定数据流并行Skyline查询处理方法[J]. 计算机研究与发展, 2013, 50(S1): 132-139.

ZHAO Yue, WANG Yijie, WANG Yuan, et al. An efficient method of parallel skyline query processing over uncertain data stream[J]. Journal of computer research and development, 2013, 50(S1): 132-139.

[12] ZHOU Xu, LI Kenli, ZHOU Yantao, et al. Adaptive processing for distributed skyline queries over uncertain data[J]. IEEE transactions on knowledge and data engineering, 2016, 28(2): 371-384.

[13] CICERI E, FRATERNALI P, MARTINENGHI D, et al. Crowdsourcing for top-K query processing over uncertain data[J]. IEEE transactions on knowledge and data engineering, 2016, 28(1): 41-53.

[14] RAM width=5,height=14,dpi=110 REZ-GALLEGO S, KRAWCZYK B, GARCA S, et al. A survey on data preprocessing for data stream mining: current status and future directions[J]. Neurocomputing, 2017, 239: 39-57.

[15] 张晨, 金澈清, 周傲英. 一种不确定数据流聚类算法[J]. 2010, 21(9): 2173-2182.

ZHANG Chen, JIN Cheqing, ZHOU Aoying. Clustering algorithm over uncertain data streams[J]. Journal of software, 2010, 21(9): 2173-2182.

[16] DALLACHIESA M, NUSHI B, MIRYLENKA K, et al. Uncertain time-series similarity: return to the basics[J]. Proceedings of the VLDB endowment, 2012, 5(11): 1662-1673.

作者

迟荣华，黄少滨，吕天阳

出处

《哈尔滨工程大学学报》 2018年第06期

上一篇：基于频域的自抗扰广义预测控制的稳定性分析

下一篇：热弹耦合条件下的齿廓修形设计

《哈尔滨工程大学学报》2018年第06期文献

PCA-PSO-ELM配网供电可靠性预测模型作者：许爱东，李昊飞，程乐峰，余涛

MPS方法研究进展及其在船舶水动力学问题中的应用作者：陈翔，张友林，万德成

SVM在高光谱图像处理中的应用综述作者：王立国，赵亮，刘丹凤

海底管线作用下沙质海床冲刷深度的计算作者：杨少鹏，拾兵

长江经济带出口集装箱运输网络优化设计作者：宫之光，汪洋，杨忠振

考虑航行经验规则的无人船舶智能避碰导航方法作者：沈海青，郭晨，李铁山，余亚磊

离心压缩机进口可调导叶尾缘吹气数值模拟作者：辛建池，王晓放，陈旭东，石海，周路圣，杨树华

非线性有限体积法大旋转问题研究作者：刘琦，明平剑，张文平

水面无人艇的抗追捕-逃跑策略作者：苏义鑫，石兵华，张华军，李子璇，王晨

高超声速飞行器弹性自适应控制方法作者：余朝军，江驹，甄子洋，周俊

层状含气泡非饱和多孔介质的声反射与声透射作者：华健，郑广赢，黄益旺，王飞

沙质沉积物声学参数测量的换能器驱动信号补偿方法作者：王飞，黄益旺，孙启航

基于频域的自抗扰广义预测控制的稳定性分析作者：陈增强，吴瑕，孙明玮，孙青林

基于频繁密度分布模式的不确定数据流查询方法作者：迟荣华，黄少滨，吕天阳

热弹耦合条件下的齿廓修形设计作者：罗彪，李威

齿根过渡曲面对正交面齿轮弯曲强度影响作者：赵新辉，孙永国，于广滨

内置高温体倾斜多孔腔体中自然对流的LBM模拟作者：李培生，孙金丛，张莹，李伟

基于频谱复杂度的雷达信号调制方式识别作者：刘鲁涛，戴亮军，陈涛

GNSS系统中一种低复杂度的载噪比估计算法作者：王姣，姜苏洋，狄世超，李金海，欧松林

基于voronoi图的材料初始组织的生成作者：刘英伟，张洋

FLUENT模拟分析巴基纸基复合材料的温度场分布作者：张阿樱，吕海宝

老化对水泥沥青复合胶结料粘弹特性的影响作者：李云良，刘钰泽，谭忆秋

波形钢腹板单箱多室箱梁横向受力分析作者：赵品，叶见曙

杂志信息网