图的很多性质均与图谱相关,可以通过图谱的变化来衡量图匿名化对于图数据可用性的影响,在实验测试中,主要关注图邻接矩阵最大特征值.1和拉普拉斯矩阵次最小特征值的变化情况.在社会网络图中进行图查询是一项重要应用,因此,图匿名化对于图查询结果的影响也是社会网络隐私保护技术的一项重要测评指标.可以从多个方面评估图查询结果的变化,包括查询错误率、真实结果覆盖率等.对于执行效率,主要是测试图匿名化算法的执行时间。 5、未来研究趋势 社会网络隐私保护是一个新兴的研究方向,尚有许多值得深入探索的问题.在本文的最后,我们基于大量的调研和近几年来的研究经验,提出一些值得进一步挖掘的研究点,希望对本领域的其他研究者有所启发. (1)深入研究并行化社会网络隐私保护技术 当前,基于单工作站的社会网络分析和隐私保护技术不适合海量社会网络数据,例如,对于Facebook这种用户数目达到上亿级别的社会网络,单工作站的社会网络算法的执行效率、数据处理能力均不能满足实际应用需求.因此,有必要研究并行化社会网络隐私保护技术.基于网络和并行计算思想的云计算技术使得进行社会网络海量数据的并行化分析和隐私保护成为了可能,例如,文献初步尝试了云环境中的社会网络隐私保护研究. 可以从两方面深入研究并行化社会网络隐私保护技术:1.隐私保护的并行化社会网络分析;2.并行化社会网络隐私保护算法.对于隐私保护的并行化社会网络分析,侧重研究并行化社会网络分析中如何防止隐私泄露;对于并行化社会网络隐私保护算法,侧重研究如何将现有的隐私保护技术和模型移植到并行计算环境中.不论对于哪种研究方向,并行化社会网络隐私保护技术都会面临无法载入海量数据、基于分割的图数据无法得到正确结果、数据处理效率非常低等诸多困难,需要深入研究并解决相应难点,实现社会网络隐私保护的并行化计算. (2)支持丰富数据应用的社会网络隐私保护 如前所述,在当前社会网络隐私保护研究中,并未指定发布数据的用途,而现实中发布的社会网络数据常被用于各种特定用途,例如进行社区中心发现、链接挖掘、可达性计算等.以前的研究工作并未基于数据发布用途来设计相应的隐私保护方法,而只是设计了通用的隐私保护方法,影响了发布数据的可用性.因此,有必要基于发布数据的用途实现社会网络隐私保护的定制化,从而提高发布数据的可用性.例如,文献研究了保持图社区结构的图匿名化技术,开启了支持指定数据应用的社会网络隐私保护研究.图匿名过程包含了边添加和删除等操作,会对结点之间的可达性造成影响.如何在实现图匿名的同时减少结点间可达性的影响,是一个挑战性问题. (3)阻止社会网络预测模型导致的隐私泄露 在第2.4节中介绍了攻击者采用各种预测模型推演隐私信息,然而,目前只有文献研究了如何阻止基于预测模型推演获得隐私信息.因此,有必要研究防范不同社会网络预测模型的隐私保护技术.例如,文献仅研究了如何防范基于相似度的敏感链接推演攻击,没有对最大似然链接推演攻击和概率模型链接推演攻击给出隐私保护方法.隐私推演模型的复杂性和图中结点、边之间的高度相关性,对研究相应的隐私保护技术提出了挑战. (4)社会网络隐私保护模型亟待多样化 当前,社会网络隐私保护技术基本采用K-匿名、数据扰乱和推演控制等隐私保护思想.由于隐私保护模型和方法缺乏多样性,从而导致隐私泄露威胁大、数据可用性低等缺点,亟待提出多样化的社会网络隐私保护模型.例如,相关工作已初步尝试将关系数据中的差分隐私移植到社会网络隐私保护中.然而,结点间的高度相关性以及大数据规模会导致图数据差分隐私的高复杂度,如何降低图差分隐私复杂度是一个挑战性问题. 6、总结 本文在充分调研和深入分析的基础上,对社会网络隐私保护的研究进展进行了综述,分别从社会网络中的隐私、攻击者背景知识、社会网络数据隐私保护技术、数据可用性与实验评测等方面对现有研究工作进行了细致的分类归纳和分析,详细阐述了各种社会网络数据隐私保护的原理,指出了当前社会网络隐私保护存在的不足以及不同社会网络隐私保护技术间的对比和优缺点,最后对未来研究趋势进行了展望. |