公司和个人常常处于对立状态,一方关注信息收集,另一方关注隐私保护。在线商店和服务总是渴望更多地了解他们的客户——收入、年龄、品味——然而我们大多数人都不渴望透露太多。
数学为摆脱这种困境提供了一种方法。几年前,数据挖掘研究员拉凯什·阿格拉瓦尔和拉马克里希南·斯里坎特提出了一个想法,让说真话不再那么令人担忧。如果公司满足于准确的汇总数据,而不是关于个人的详细信息,那么这个想法就有效。以下是它的运作方式:你提供某些侵入性在线问题的数字答案,但会随机添加(或减去)一个数字,并且只将总和(或差值)提交给公司。从提交的数字中恢复近似平均值所需的统计数据并不那么困难,并且你的隐私得到了保护。
因此,假设你39岁,并且被问及你的年龄。发送到网站的数字可能在19到59的范围内,具体取决于生成的-20到+20之间的随机数(如果你信任该公司,则由该公司生成;否则由独立网站或你生成)。类似的模糊因子将适用于收入、邮政编码、受教育年限、家庭规模等等,并为生成的随机数设定适当的范围。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的有影响力的故事的未来。
概率论中另一个更古老的例子说明了这个想法的一个变体。想象一下,您在一个组织的网站上,该组织希望了解有多少订阅者曾经做过X事,其中X是令人尴尬或非法的事情。毫不奇怪,如果人们回答这个问题,许多人会撒谎。随机掩盖再次发挥作用。该网站会问“您是否曾经做过X事?是或否”,但要求您在回答之前私下抛掷一枚硬币。如果硬币正面朝上,网站要求您只需回答“是”。如果硬币反面朝上,则指示您如实回答。因为“是”的回答可能只表示硬币正面朝上,所以人们大概没有理由撒谎。
恢复回答过X事的人的百分比近似值所需的数学很简单。为了说明:如果1000个回复中有545个是“是”,我们就会知道这些“是”中大约有500个是硬币正面朝上的结果,因为大约一半的抛硬币,按概率,会是正面朝上。在另外大约500个硬币反面朝上的人中,大约有45人也回答了“是”。我们得出结论,因为大约500个如实回答的人中,大约有45人做过X事,所以做过X事的人的百分比约为45/500,即9%。
在某些情况下,这种低技术技术的变体,结合适当的立法,将是有效的——这位6英尺9英寸的X事实践者如是认为。