随着互联网的迅速崛起,我们的世界正逐渐被一个虚拟的网络所包围,仿佛电影《孤注一掷》中的赌局,每个人都站在信息的赌桌前,孤注一掷地揭开自己的隐私底牌。在这个数字化的时代,本地与在线的界限正在迅速模糊,我们的生活和社交活动似乎被无形的数据线所连接,信息的流动已然成为一种常态。
在过去的二十年里,随着在线平台的迅猛增加,许多平台已经从用户数据的搜集中获得了巨额收益。用户往往直接从数据搜集的成果中受益,例如通过更准确的产品或服务推荐。
然而,另一些以数据为基础的活动,如定向广告、个性化定价以及向第三方销售数据,可能会对用户造成负面影响,其中最为突出的就是隐私侵犯。用户是否愿意共享自己的数据往往取决于数据搜集平台对数据使用的限制和承诺。
(资料图片)
然而,平台究竟能够在多大程度上保护用户的隐私呢?尽管这些平台会提供各种隐私保护协议并保证不会泄露用户隐私,但如果用户的敏感隐私信息可能为其带来高额收益,甚至可能高于违约成本,用户的隐私安全仍有可能受到威胁。此外,用户对于平台隐私保护协议的反应也因人而异,因此用户是如何做出决策的呢?
为了深入研究在隐私数据搜集过程中平台最佳的数据处理机制,来自麻省理工学院的Daron Acemoglu、Azarakhsh Malekian、Alireza Fallah、Asuman Ozdaglar与杜克大学的Ali Makhdoumi于2023年6月 在National Bureau of Economic Research(NBER) 发表论文“How Good Are Privacy Guarantees? Platform Architecture and Violation of User Privacy”。
作者在文章中构建了一个多级模型,其中用户基于平台提出的隐私保障与承诺而决定是否共享他们的数据。总的来说,作者构建了一种掩码-洗牌机制,并证明了它是帕累托最优的,即在给定公共信息含量的情况下,该机制使用的私有信息量最低。
研究主要结论如下:
1. 提出一种简单的洗牌机制并证明该机制是“用户最优”的。它在提供数据共享的积极和消极影响之间提供了最佳平衡。
2. 由于平台提供的隐私保证往往不够完美,当用户提高对参数估计的权重时,用户的效用反而会下降。因此,机制制定者需要更加重视隐私保护问题,并采取相应的措施来保护用户的隐私。
3. 研究证明平台有动机偏离用户最优机制,这一结果进一步表明平台的自我调节通常不足以确保充分的用户隐私。
用户的关键决策是是否共享自己的数据(或参与平台)。除非平台提供足够的隐私保障,否则他们不会共享自己的数据。平台与用户之间的博弈可以概念化为如下过程:
首先,平台承诺部分保护用户隐私的机制。其次,用户单独决定是否共享他们的数据。然后平台根据选择的机制使用数据,并实现了实用工具。本文的核心即是寻找该博弈的Stackelberg均衡,也即平台在搜集数据和使用数据中应当选择的最优机制。
让上述博弈分析变得复杂的是,平台可用的隐私保障的机制是非常多的,包括部分匿名化、对数据用途的限制、对数据添加噪声的各种方式,以及差分隐私和相关机制。
所以,作者在所有可能的机制中考虑两个关键指标:关于公共信息的泄露和关于用户私有数据信息的泄露,并提出文章的核心研究问题:
在所有机制中,有没有一种机制可以达到帕累托边界,即对底层公共信息泄露最多, 对用户私有信息泄露最少?这种机制是什么?
考虑一个希望从n个用户收集隐私数据的平台,用户集记为N = { 1,..,n }。用户i的数据用Xi = θ + Zi表示,其中θ∈N ( 0、1 )为公共信息,Zi∈N ( 0、1 )为用户i的私有信息。
假设用户和平台都能从更好的θ估计值(更高效地挖掘公共信息)中获得更高的效用。用户i的私有信息Zi则可以用于平台的收益,因此仅有平台从更好的Zi估计中获得收益,而用户则遭受隐私损失。
用户与平台之间通过一种机制进行连接。机制M:存在一个随机算法,其输入为用户的数据,即x1,· · ·,xn,其输出是平台的收益。平台利用机制M的输出对公共信息θ进行估计。
机制空间包括从用户数据到任意空间的所有可能的映射。原则上,这一类包含了丰富的机制集合。尽管如此,文章建立的用户最优机制采取相对简单的形式,称之为掩码-洗牌机制。特别地,文章证明了对于给定的关于θ的公开信息,掩码-洗牌机制实现了关于私有用户私有信息Zi的最小暴露。具体地,该机制表述如下:
掩码-洗牌机制是如下包含n+1个参数(q1,q2,…,qn,μ)的两步过程
每个用户i∈N的数据以概率1 - qi “隐藏”,剔除后的数据标记为空(NA)。令Yi表示经过上一步掩码过程的用户数据,在这一步中对数据进行“部分洗牌”,即数据Yi以概率μ分为两组。其中一组数据不进行操作直接进入平台的实际使用,另一组则进行随机打乱洗牌,再进入实际使用。具体地,该机制可以以下图表示:
对于前述的掩码-洗牌机制,对于一个给定的洗牌比例μ与掩码概率qi,公共信息θ的估计精度可以表示为:
而关于自由信息Zi的估计精度可以表示为:
上述公式表明,关于公共信息θ的显露程度并不依赖于洗牌参数μ,因为无论用户的数据是否被洗牌,平台都可以提取该用户数据中关于θ的相关信息。而私有信息Zi的显露程度则取决于洗牌参数。
进一步,作者证明,对于给定的公共参数θ的期望的估计精度,掩码-洗牌机制实现了关于私有类型Zi的最低可能的揭示信息总和。(给定要求的公共信息量,掩码-洗牌机制能够将完成该目标需要的私有信息量降到最低。)
具体地,令:
为任意机制实现的所有关于θ的显示信息对和关于Zi的显示信息对的集合。分别用▁A和¯A表示最小可能值和最大可能值。
对于任意的A∈[▁A ,¯A],定义P的帕累托前沿为:
即在任意公共信息的披露程度A下,均存在一个私有信息的披露程度B,并且B是所有可能的信息披露程度对P中私有信息披露程度的下界。
最后,作者证明了对于任意的A,总存在一个对应的“掩码-洗牌机制”,能够找到对应的PF(A),即最低的私有信息披露程度(帕累托前沿)。证明过程可参读原文附录。
当隐私成本很高时,用户可能不愿意分享他们的数据,甚至不愿意参与那些不提供明确隐私保障的平台。这促使许多平台出台关于如何对待用户数据的指导方针,并提供各种隐私保障。
本文在这一方向上迈出了第一步。通过构建了一个具体的多步模型,其中用户根据平台的隐私机制选择来决定是否共享他们的数据。模型抓住了平台和用户之间数据相关关系的几个显著特征,但仍然具有高度的可处理性。因此,这些结果既具有理论上的意义,也可以为私有化中存在的不完善之处提供指导。
文章结果证明了用户数据以某种概率完全匿名化的掩码洗牌机制是帕累托最优的,这意味着对于任何给定的公开信息数据,它实现了关于用户数据的最小信息泄漏,这也暗示了该机制对用户也是最优的。