摘要:对社会网络隐私保护的研究现状与进展进行了阐述.首先介绍了社会网络隐私保护问题的研究背景,进而从社会网络中的隐私、攻击者背景知识、社会网络数据隐私保护技术、数据可用性与实验测评等方面对当前研究工作进行了细致的分类归纳和分析,指出了当前社会网络隐私保护的不足以及不同隐私保护技术间的对比和优缺点,并对未来需要深入研究的方向进行了展望.对社会网络数据隐私保护研究的主流方法和前沿进展进行了概括、比较和分析. 关键词:社会网络;隐私保护;数据发布 随着网络技术以及社交网站的迅速发展,例如Facebook、MySpace、人人网等,通过社交网站进行交友、联系和互动的用户群体数量迅速增加.以Facebook为例,其用户总数在2013年1月突破10亿,约占世界人口的14%.由于社会网络的繁荣和广泛应用,越来越多的研究学者和开发人员将其科学研究和应用开发的注意力集中到社会网络这种虚拟世界当中.社会网络分析已经成为社会学、地理学、经济学、信息学等诸多学科的研究热点. 基于社会网络数据进行数据挖掘和分析潜在模式比传统关系数据更加科学、效果更好,社会网络分析又称为链接挖掘(linkmining).通过对社会网络进行链接挖掘可以获得实体更丰富(如某实体在整个网络中的重要性)、更准确(如预测某实体所属类别)的信息.因此,亟待发布和共享更多的社会网络数据,为数据挖掘和模式分析提供更丰富的数据来源.然而,发布和共享社会网络数据会导致隐私泄露,并且社会网络中的隐私信息类型广泛,潜在隐私泄露方式更加多样化.例如:在电话网络中,Ada和Bob之间频繁的电话和短信联系可能被视为敏感关系,因为他们不希望别人得知他们之间的亲密关系;在医疗网络中,某人与肺癌医生之间的联系可能被其视为敏感信息.大量研究工作为关系数据提供隐私保护,其中,文献首先提出K-匿名隐私保护模型,继而出现了一系列基于K-匿名模型的关系数据隐私保护技术.但是,关系数据隐私保护技术不能为社会网络数据提供隐私保护,这是因为关系数据隐私保护模型仅考虑攻击者将关系数据中每条记录的属性值作为背景知识进行隐私攻击,忽略了社会网络中结点之间的关系、社会网络图结构、结点在图中的结构和位置重要性等均可作为攻击者的背景知识进行隐私攻击.文献基于真实数据,通过实验证明了社会网络面临很大的隐私攻击和泄露的威胁.可以看出,关系数据只是社会网络数据中结点之间相互独立时的特例,因此,关系数据隐私保护技术不能够满足社会网络数据的隐私保护要求,需要基于社会网络数据的特点研究相应的数据隐私保护技术.本文对近年来社会网络数据隐私保护研究工作进行了归纳总结,指出了当前社会网络隐私保护的不足以及不同隐私保护技术间的对比和优缺点. 1、社会网络中的隐私信息 在社会网络中,组成社会网络的各个元素均可能涉及到隐私信息,包括结点、边、图性质等.在本文中,社会网络隐私分类为结点隐私、边隐私、图性质隐私。1.1社会网络中的结点隐私 在社会网络中,每个结点代表了社会中的真实个体,而与结点相关的任何信息均有可能成为隐私.本文将结点隐私具体分类为结点存在性、结点再识别、结点属性值、结点图结构等隐私信息. (1)结点存在性 所谓结点存在性,是指某个人是否以结点的形式出现在某个社会网络中.在某些情况下,某些人会将自己出现在某特定社会网络视为隐私信息.如果某人将此视为隐私信息,发布数据时应防止攻击者结合背景知识推测出该人存在此社会网络中.例如,传染病传播网络对于研究公共健康和疾病传播途径等方面具有很大价值,然而在发布传染病传播网络数据的同时,如果攻击者能够推断出某攻击目标存在于此传染病传播网络中,则导致了该攻击目标隐私信息的泄露.从表1中可以看出,目前针对保护结点存在性隐私信息的研究工作尚属空白. (2)结点再识别 在发布社会网络数据时,为了保护网络中实体的隐私信息,通常将所有结点的身份信息删除,使得攻击者不能识别和推测出攻击目标在社会网络中的准确位置.但是攻击者可以基于与攻击目标相关的背景知识对社会网络中的结点进行匹配识别,从而准确地或者以一定概率识别攻击目标在社会网络中的位置.在社会网络中,攻击者基于背景知识对攻击目标的位置进行匹配识别的过程称为结点再识别. (3)结点属性值 社会网络中的每个结点具有属性值,这些属性值描述了社会中每个人的真实信息,其中某些属性信息会涉及到个人隐私,例如收入信息、医疗记录中的患病信息等.发布社会网络数据时,结点之间的相互关系使得攻击者具有更多的背景知识推测目标结点的敏感属性信息.例如在家族遗传病史社会网络中,即使删除了某个重要结点的疾病信息,但是攻击者还可以基于其亲戚患有遗传疾病的情况,推测该目标结点可能患有的疾病.文献提出采用结点K-匿名的方法来保护结点的敏感属性值,而文献显示了基于社会网络基本常识即可准确地推测出大部分结点的敏感属性信息. (4)结点图结构 不仅结点的某些属性值是敏感的,结点在社会网络中的图结构性质在某些情况下也被视为敏感和隐私,例如结点的度、两个结点间的最短距离、结点到社会网络中某个社区中心的距离等.例如在商品供货网络中,每个结点的入度和出度分别表示其供货渠道数目和销售渠道的数目,这些信息属于需要保护的敏感信息而防止其被竞争对手获得.所示了目前尚无相关工作针对保护结点的图结构隐私信息进行深入研究. 1.2社会网络中的边隐私 在社会网络中,一条边表示其两端结点具有某种关系,结点由于相互间具有各种关系从而形成庞大的网络图.在某些情况下,边相关信息可能是敏感的,例如两点之间是否具有某种关系、参与某种敏感关系的结点信息、边权重、边的相关属性等.本文将边隐私具体分类为边存在性、边再识别、边权重、边属性值等隐私信息. (1)边存在性 所谓边存在性,是指社会网络中的两个指定结点是否具有某种关系.如果某两个结点的边是敏感的,简单地将此两个目标结点的敏感边删除并不能很好地保护隐私信息,攻击者可以通过背景知识推测两个目标结点是否具有敏感边.文献假设攻击者采用noisy-or概率模型并基于现有结点之间的边连接来计算目标结点间具有敏感关系的概率,从而对可能被删除的敏感边进行恢复.在文献中,通过实验验证了在真实社会网络数据上采用链接推演技术可以高概率地预测两个目标结点之间是否具有边连接. (2)边再识别 对于社会网络中的某条边,识别该边两端结点的过程称为边再识别.在社会网络中,每条边的两端连接着社会网络中的两个结点,表明两个结点所代表的个人具有某种关系,该关系可能被视为敏感信息.例如在异性交友网络中,两个结点之间的边表示了两个结点所代表的个人曾经具有男女朋友关系,显然,此种关系可能涉及个人隐私.文献研究了如何使边再识别概率小于指定阈值.文献同样将两结点之间的边连接视为隐私信息,并提出技术保证在不得知结点之间边连接情况的同时,较准确地计算任意两点之间的最短路径长度. (3)边权重 在不同应用背景中,社会网络中的边具有权重.在电子邮件通信网络中,边权重可以表示两个人之间收发电子邮件数目;在商业网络中,边权重可以表示两个商业公司之间的贸易额.类似商业公司之间的贸易额等边权重信息可能被视为敏感信息.在文献中,研究了在防止边权重值泄露的同时保持某些重要结点间的最短路径不变;而文献提出的技术在对边权重提供隐私保护的同时保证线性图性质不变. (4)边属性值 与结点属性值相似,社会网络中的边也可以具有属性值,例如边上的标签可以表示边两端结点的关系类型.边的敏感属性值对于边的两端结点所代表的个人来说属于隐私信息.文献研究了在社会网络中,如何防止攻击者基于背景知识推测出边的敏感属性值. 1.3社会网络中的图性质隐私 很多图性质是社会网络分析的重要评估标准,例如中间性(结点位于其他结点连接路径上的度)、中心性(结点与其他结点具有关系的数目)、路径长度(网络中两结点间的最短距离)、可达性(任意结点与其他结点联通的度)等.某些结点的图性质亦被视为个人隐私信息,目前尚无相关工作对结点图性质提供隐私保护. 对社会网络中的隐私信息进行分类归纳意义重大,因为社会网络中,不同类型隐私信息泄露均会威胁到个人隐私信息安全,只有对社会网络中的隐私信息做好辨识和分类工作,才能对不同隐私信息提出相应保护技术.,社会网络中很多方面的隐私信息需要深入研究来为其提供保护. 2、攻击者背景知识 由于社会网络蕴含的信息具有多样化的特点,攻击者可以采用多种类型知识发动隐私攻击,对进行社会网络隐私保护提出很大挑战.本文将攻击者背景知识分类为社会网络图结构、结点信息、边信息、预测模型等方面。 2.1社会网络图结构 |