https://mp.weixin.qq.com/s/gbMpds_GHENUQQvy0fZSLw
DSE精选文章
Set-Based Adaptive Distributed Diferential Evolution for Anonymity-Driven Database Fragmentation
数据库碎片可以通过打破属性之间的敏感关联来保护外包数据存储的隐私。数据库碎片算法需要先验知识处理数据库中的敏感关联,因此这些算法的有效性受到先验知识的限制。受匿名技术中匿名度度量的启发,该文提出了一种基于集合的自适应分布式差分进化(S-ADDE)算法,用于解决匿名驱动的数据库碎片问题。S-ADDE中的个体代表数据库分片的解,每个解的匿名度设置为个体的ftness值。S-ADDE中个体的更新反映了数据库碎片化匿名度的增加。此外,该文的主要贡献如下:
1.为了保证种群的多样性,该文采用包含四个亚种群的岛屿模型;
2.该文提出了两种基于集合的算子,即基于集合的变异算子和基于集合的交叉算子,将传统差分进化中的连续域转移到数据库碎片问题中的离散域;
3.在基于集合的变异算子中,每个个体的变异策略根据进化性能自适应选择;
4.实验结果表明,该文提出的S-ADDE明显优于文中比较的方法,验证了提出的算子的有效性。
如图1所示,描述了一个样本数据库,包含九个属性和六个记录。其中数据库分为三个片段,这三个片段构成图底部所示的片段解决方案。所提出的S-ADDE算法中的每个个体代表一个数据库碎片解决方案。因此,个体中的每个位表示数据库中的一个属性,其值表示选择相应属性进行分配的片段。
如图2所示,描述了岛屿模型的一个示例,其中每个大圆表示一个子种群。在大圆中,小三角形和圆代表最好的个体和个体其他亚群体个体。子种群中的最佳个体以预定义的迁移间隔被发送到通信拓扑上的邻域子种群。然后,随机选择每个子群体中的一个个体,并由接收到的精英个体代替。
如表1所示,描述了其他方法在实验中获得的平均值和标准偏差值,最佳结果用黑体标出。可以看到,S-ADDE算法在所有测试用例上都优于其他方法,可以在探索性搜索和开发性搜索之间实现更好的平衡。但是在复杂的测试用例(如和)中,S-ADDE更容易陷入局部最优。
如图3所示,描述了四个典型测试用例的收敛曲线。其中,HA是一种针对数据库碎片问题的最先进的启发式算法,DE用作基线算法,S-DDE算法中数据库碎片问题通过基于集合的变异和交叉算子进行优化。
一开始,这三种算法都收敛得很快。HA很快陷入局部最优并停滞。由于DE和S-ADDE的探索能力,它们可以在搜索过程中不断提高匿名度。S-ADDE的绿线和DE的红线之间的差异验证了孤岛模型和所提出的基于集合的算子在S-ADDE中的有效性。
如表2所示,描述了S-ADDE算法结果对原始数据集的影响。其中,AD表示每个数据集的匿名程度,min(AD)、avg(AD)和max(AD)表示由S-ADDE中的片段获得的匿名度的最小值、平均值和最大值。
如图4所示,描述了16个测试用例的S-ADDE加速比。随着S-ADDE的并行粒度不断增加,加速比也显著增加。不同测试用例中的加速比曲线各不相同,这是因为不同的测试用例具有不同的复杂性,需要不同的评估时间。
该文定义了一个匿名驱动的数据库碎片问题。为了解决这个问题,该文提出了S-ADDE 算法。S-ADDE算法利用孤岛模型来提高种群多样性,这在复杂性高的搜索问题中至关重要。该文提出了两种基于集合的算子,即具有自适应变异策略选择的基于集合的变异算子和基于集合的交叉算子。S-ADDE的计算效率验证了所提出算子的有效性。此外,该文对数据库分片的隐私问题(即匿名度)进行了优化。在未来工作中,作者计划进一步研究和优化数据库碎片的效用问题。
张彦春,广州大学/鹏城实验室特聘教授,澳大利亚维多利亚大学名誉教授。多年来一直从事社会计算和电子健康,大数据与AI算法与应用研究工作,在信息技术及医学领域发表国际期刊和学术会议文400余篇。已经出版,编辑书刊和专辑20余部,完成指导相关方向40多名博士生和博士后。
Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。
目前期刊已被EI、ESCI与SCOPUS收录,CiteScore 2021为6.4,在Computer Science Applications领域排名# 157/747(位列前21%)。稿件处理费由赞助商中新赛克(Sinovatio)承担,欢迎大家免费下载阅读期刊全文,并积极投稿。
论文原文链接:https://link.springer.com/article/10.1007/s41019-021-00170-4