理解大量数据的挑战之一是使用少量数字来描述它们,这些数字在某种程度上反映了整体。诸如最小值、最大值以及各种平均值之类的统计数据会告诉您数据集的全局属性。有时,它们足以揭示有关个人的信息。这就是为什么即使仅包含有关人员统计信息的数据库也存在隐私问题:足够的统计问题可能会泄露个人数据。
考虑一个简单的游戏,提问者昆汀和回答者罗莎尔巴之间进行。昆汀只能询问一组数字的全局属性(例如,“它们是否都是整数?”、“它们是否各不相同?”以及“统计平均值、中位数、最小值和最大值是多少?”)。罗莎尔巴可以拒绝回答,但她必须给出理由。罗莎尔巴总是说实话。有时,她会为了好玩而主动提供信息。
热身
罗莎尔巴:“我有五个整数,都各不相同。”
昆汀:“最小值是多少?”
罗莎尔巴:“15。”
昆汀:“最大值是多少?”
罗莎尔巴:“我不会告诉你,因为那样你就会知道一切。”
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
这些数字是什么?
热身题的解答
因为这些数字都各不相同,所以只有当最大值是 19 时,它才能揭示一切。那么这个集合由 15、16、17、18 和 19 组成。好吧,这个很简单,但接下来的推论会更有趣。
在我们继续之前,让我提醒您平均值和中位数的定义。一组数字的平均值是它们的总和除以集合中数字的个数。例如,20、22、22、40 和 101 的平均值是 205/5 = 41。中位数是排序顺序中的中间数字,因此对于这个例子来说是 22。也就是说,中位数是值排序后的中间值(我们的例子总是会有奇数个值)。
问题: 1.
罗莎尔巴:“我有五个整数,它们可能相同也可能不同。”
昆汀:“最小值是多少?”
罗莎尔巴:“20。”
昆汀:“在这些中,哪个不会让你推断出它们的所有值——各不相同的数字、平均值、最大值或中位数?”
罗莎尔巴:“只有中位数。”
昆汀:“太好了。我知道这些数字了。”
它们是什么?
2.
罗莎尔巴:“我有七个整数,它们可能相同也可能不同。”
昆汀:“最小值是多少?”
罗莎尔巴:“20。”
昆汀:“你愿意告诉我这些中的哪些(也就是说,哪些不会让你推断出它们的所有值):平均值、中位数和最大值?”
罗莎尔巴:“所有这些。”
昆汀:“好的,最大值是多少?”
罗莎尔巴:“21。”
昆汀:“我现在知道你愿意告诉我平均值和中位数中的哪一个了。”
哪个?为什么?
3.
罗莎尔巴:“你能找到一些情况,在这些情况下,我更愿意告诉你平均值而不是中位数吗?”
昆汀:“你能给我一个提示吗?”
罗莎尔巴:“在我能想到的一个例子中,有三个数字,其中两个是不同的。”
4.
罗莎尔巴:“你能找到一些情况,在这些情况下,最小值、最大值、平均值和中位数都是必要且充分的,足以找到五个数字的身份,而这五个数字都是整数?”
5.
罗莎尔巴:“到目前为止,我们一直在玩只有少量数字的游戏。我给了你提示,你已经能够推断出所有这些数字。但是五个数字并不有趣。让我们尝试更多。”
“在我们这样做之前,让我定义一个新的全局属性:到某个点的总距离。假设我们有五个数字 10、15、20、30 和 60。到某个点的总距离——在这种情况下,我们称该点为数字 22——是 (22-10)、(22-15)、(22-20)、(30-22) 和 (60-22) 的总和。在数学上,到 x 的总距离是每个数字与 x 之间差的绝对值的总和。”
“现在我们准备好了。有 17 个数字,它们并非都各不相同。它们的最小值是 30,它们的平均值是 34,它们的中位数是 35。”