https://mp.weixin.qq.com/s/gbMpds_GHENUQQvy0fZSLw
DSE精選文章
Set-Based Adaptive Distributed Diferential Evolution for Anonymity-Driven Database Fragmentation
數據庫碎片可以通過打破屬性之間的敏感關聯來保護外包數據存儲的隱私。數據庫碎片算法需要先驗知識處理數據庫中的敏感關聯,因此這些算法的有效性受到先驗知識的限制。受匿名技術中匿名度度量的啟發,該文提出了一種基于集合的自適應分布式差分進化(S-ADDE)算法,用于解決匿名驅動的數據庫碎片問題。S-ADDE中的個體代表數據庫分片的解,每個解的匿名度設置為個體的ftness值。S-ADDE中個體的更新反映了數據庫碎片化匿名度的增加。此外,該文的主要貢獻如下:
1.為了保證種群的多樣性,該文采用包含四個亞種群的島嶼模型;
2.該文提出了兩種基于集合的算子,即基于集合的變異算子和基于集合的交叉算子,將傳統差分進化中的連續域轉移到數據庫碎片問題中的離散域;
3.在基于集合的變異算子中,每個個體的變異策略根據進化性能自適應選擇;
4.實驗結果表明,該文提出的S-ADDE明顯優于文中比較的方法,驗證了提出的算子的有效性。
如圖1所示,描述了一個樣本數據庫,包含九個屬性和六個記錄。其中數據庫分為三個片段,這三個片段構成圖底部所示的片段解決方案。所提出的S-ADDE算法中的每個個體代表一個數據庫碎片解決方案。因此,個體中的每個位表示數據庫中的一個屬性,其值表示選擇相應屬性進行分配的片段。
如圖2所示,描述了島嶼模型的一個示例,其中每個大圓表示一個子種群。在大圓中,小三角形和圓代表最好的個體和個體其他亞群體個體。子種群中的最佳個體以預定義的遷移間隔被發送到通信拓撲上的鄰域子種群。然后,隨機選擇每個子群體中的一個個體,并由接收到的精英個體代替。
如表1所示,描述了其他方法在實驗中獲得的平均值和標準偏差值,最佳結果用黑體標出。可以看到,S-ADDE算法在所有測試用例上都優于其他方法,可以在探索性搜索和開發性搜索之間實現更好的平衡。但是在復雜的測試用例(如和)中,S-ADDE更容易陷入局部最優。
如圖3所示,描述了四個典型測試用例的收斂曲線。其中,HA是一種針對數據庫碎片問題的最先進的啟發式算法,DE用作基線算法,S-DDE算法中數據庫碎片問題通過基于集合的變異和交叉算子進行優化。
一開始,這三種算法都收斂得很快。HA很快陷入局部最優并停滯。由于DE和S-ADDE的探索能力,它們可以在搜索過程中不斷提高匿名度。S-ADDE的綠線和DE的紅線之間的差異驗證了孤島模型和所提出的基于集合的算子在S-ADDE中的有效性。
如表2所示,描述了S-ADDE算法結果對原始數據集的影響。其中,AD表示每個數據集的匿名程度,min(AD)、avg(AD)和max(AD)表示由S-ADDE中的片段獲得的匿名度的最小值、平均值和最大值。
如圖4所示,描述了16個測試用例的S-ADDE加速比。隨著S-ADDE的并行粒度不斷增加,加速比也顯著增加。不同測試用例中的加速比曲線各不相同,這是因為不同的測試用例具有不同的復雜性,需要不同的評估時間。
該文定義了一個匿名驅動的數據庫碎片問題。為了解決這個問題,該文提出了S-ADDE 算法。S-ADDE算法利用孤島模型來提高種群多樣性,這在復雜性高的搜索問題中至關重要。該文提出了兩種基于集合的算子,即具有自適應變異策略選擇的基于集合的變異算子和基于集合的交叉算子。S-ADDE的計算效率驗證了所提出算子的有效性。此外,該文對數據庫分片的隱私問題(即匿名度)進行了優化。在未來工作中,作者計劃進一步研究和優化數據庫碎片的效用問題。
張彥春,廣州大學/鵬城實驗室特聘教授,澳大利亞維多利亞大學名譽教授。多年來一直從事社會計算和電子健康,大數據與AI算法與應用研究工作,在信息技術及醫學領域發表國際期刊和學術會議文400余篇。已經出版,編輯書刊和專輯20余部,完成指導相關方向40多名博士生和博士后。
Data Science and Engineering(DSE)是由中國計算機學會(CCF)主辦、數據庫專業委員會承辦、施普林格自然(Springer Nature)出版的Open Access期刊。為了迎合相關領域的快速發展需求,DSE致力于出版所有和數據科學與工程領域相關的關鍵科學問題與前沿研究熱點,以大數據作為研究重點,征稿范疇主要包括4方面:(1)數據本身,(2)數據信息提取方法,(3)數據計算理論,和(4)用來分析與管理數據的技術和系統。
目前期刊已被EI、ESCI與SCOPUS收錄,CiteScore 2021為6.4,在Computer Science Applications領域排名# 157/747(位列前21%)。稿件處理費由贊助商中新賽克(Sinovatio)承擔,歡迎大家免費下載閱讀期刊全文,并積極投稿。
論文原文鏈接:https://link.springer.com/article/10.1007/s41019-021-00170-4