理解大量数据的挑战之一是用几个数字来概括它们,这些数字在某种程度上反映了整体。诸如最小值、最大值和各种平均值之类的统计数据会告诉你数据集的全局属性。有时,它们足以揭示有关个体的信息。这就是为什么即使仅包含有关人员的统计信息的数据库也是一个隐私问题:足够多的统计问题可以揭示个人数据。
考虑一个提问者昆汀和回答者罗莎尔芭之间的简单游戏。昆汀只能询问一组数字的全局属性(例如,“它们是否都是整数?”,“它们是否不同?”,以及“统计平均值、中位数、最小值和最大值是多少?”)。罗莎尔芭可以拒绝回答,但她必须给出理由。罗莎尔芭总是说实话。有时,她会为了好玩而主动提供信息。
热身
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的有影响力的故事的未来。
罗莎尔芭:“我有五个整数,它们都不同。”
昆汀:“最小值是多少?”
罗莎尔芭:“15。”
昆汀:“最大值是多少?”
罗莎尔芭:“我不会告诉你,因为你会知道一切。”
这些数字是什么?
热身题的解答
因为这些数字都不同,所以只有当最大值为 19 时,才能揭示一切。那么,这个集合由 15、16、17、18 和 19 组成。好的,这个很简单,但接下来的推论会更有趣。
在我们继续之前,请允许我提醒您平均值和中位数的定义。一组数字的平均值是它们的总和除以集合中的数字个数。例如,20、22、22、40 和 101 的平均值是 205/5 = 41。中位数是排序顺序中的中间数字,因此本例中为 22。也就是说,中位数是值的排序顺序中的中间值(我们的示例始终具有奇数个值)。
问题
1.
罗莎尔芭:“我有五个整数,它们可能相同也可能不同。”
昆汀:“最小值是多少?”
罗莎尔芭:“20。”
昆汀:“其中哪些不会让我推断出它们的所有值——不同的数字、平均值、最大值或中位数?”
罗莎尔芭:“只有中位数。”
昆汀:“太好了。我知道这些数字了。”
它们是什么?
2.
罗莎尔芭:“我有七个整数,它们可能相同也可能不同。”
昆汀:“最小值是多少?”
罗莎尔芭:“20。”
昆汀:“你愿意告诉我哪些(也就是说,哪些不会让我推断出它们的所有值):平均值、中位数和最大值?”
罗莎尔芭:“所有这些。”
昆汀:“好的,最大值是多少?”
罗莎尔芭:“21。”
昆汀:“我现在知道你愿意告诉我平均值和中位数中的哪一个了。”
是哪个?为什么?
3. 罗莎尔芭:“你能找到一些情况,让我更愿意告诉你平均值而不是中位数吗?”
昆汀:“你能给我一个提示吗?”
罗莎尔芭:“在我能想到的一个例子中,有三个数字,其中两个是不同的。”
4. 罗莎尔芭:“你能找到一些情况,其中最小值、最大值、平均值和中位数都是必要且充分的,以找到五个整数的身份吗?”
5.
罗莎尔芭:“到目前为止,我们一直在玩几个数字的游戏。我给你提示,你就能推断出所有数字。但是五个数字并不有趣。让我们尝试更多。”
“在我们这样做之前,让我定义一个新全局属性:到某个点的总距离。假设我们有五个数字 10、15、20、30 和 60。到某个点的总距离(我们称这个点在本例中为数字 22)是 (22-10)、(22-15)、(22-20)、(30-22) 和 (60-22) 的总和。在数学上,到 x 的总距离是每个数字与 x 之间差的绝对值的总和。”
“现在我们准备好了。有 17 个数字,它们不都相同。它们的最小值是 30,平均值是 34,中位数是 35。”
昆汀:“它们到 35 的总距离是多少?”
罗莎尔芭:“我不会告诉你,但是到 35 的总距离比到 38 的总距离少 5。哎呀,我不应该告诉你这个。”
昆汀笑着说:“你说得对。现在我知道所有的数字了。”
它们是什么?
6. 如果数字有 1,701 个,但其他信息与上一个问题相同,您对此问题的答案会发生什么变化?