平均数便是一个经常被使用的伎俩,虽然有时出于无心,但是更多的时候是明知故犯
美国著名的统计学家 (1963年被授予国家学院钟奖) 达菜尔·哈夫 一般而言,民意调查都带有一定方向的误差。 我相信你不是一个势利小人,而我也并不从事房地产生意。但请让我们作这样的假设,现在你正在一条我熟知的街上看房子。我巧舌如簧、费尽心思地让你相信附近居民的年收入大约有10000英镑。也许这增加了你居住于此的兴趣,买卖最终成交了,那美妙的数字也被牢记在你的脑海。而且,既然你有那么一点势利,当与朋友聊天时,你总会看似不经意地流露出你居住的地点。 一年左右过后我们又见面了。作为纳税者委员会的成员,我正在四处奔走,为降低税率、降低财产估价、或降低公共交通费用而呼吁。我的理由是:我们支付不起各种上涨的费用,毕竟,附近居民的平均年收入只有2000英镑。也许你会加入到我和我们委员会的工作中来——这说明你不仅势利,而且还挺吝啬。但是,当听到那可怜的2000英镑时,你也禁不住大吃一惊。到底是我现在撒谎了呢?还是一年前撒了谎? 其实这两次你都无法怪罪于我,这便是利用统计撒谎的妙处。 两个数字都是正规的平均数,计算方法也完全正确。两个数字都基于相同的数据,来自相同的居民,根据相同的收入。所有都是相同的,但显然至少其中一个数据令人误解,足以与弥天大谎相媲美。 我的花招是每次使用了不同的平均数,“平均数”这个词有很宽泛的涵义。当一个家伙希望影响公众观点,或者向其他人推销广告版面时,平均数便是一个经常被使用的伎俩,虽然有时出于无心,但是更多的时候是明知故犯。当你被告知某个数是平均数时,除非能更进一步地说出它的具体种类——均值、中位数还是众数,否则你对它仍知之甚少。 当希望数值较大时,我所使用的10000英镑是算术平均数,只要将所有家庭的收入加起来并除以家庭总户数便可得到。数值相对较小的2000英镑是中位数,它透露了这样的信息:一半家庭的收入超过2000英镑,另一半家庭的收入不及2000英镑;我还可以利用众数,它是在所有家庭收入序列中出现次数最多的那个收入,如果这个附近的居民,年收入为3000英镑的家庭数多于其他收入的家庭数,那么众数就是3000英镑。 不合适的“平均数”实际上是毫无意义的,只要碰到收入数据这种情况就经常出现。不过在某种条件下,所有平均数的数值十分接近,如果出于一般的目的根本没有必要区分它们。当你看到某个原始部落男性的平均身高为5英尺时,你便能对这些人的外形条件有了很好的了解,甚至不需要询问这个平均数是均值、中位数或者众数,因为这些平均数的数值大致相等。(当然,如果你正在为非洲人赶制一批制服,那么你需要比平均数更多的信息,需要用到全距和标准差。)当你处理诸如人类特征的许多数据时,各种平均数的数值十分接近。这些数据具有我们常说的正态分布的形态特点,如果你用曲线绘制正态分布,将得到一根类似一口钟的曲线,并且均值、中位数和众数都落在相同的点上。 但在描述他们的钱袋时,却并不是那么回事儿了。 在我卖给你房子附近的居民区里,你的邻居大多数都是小农、在附近村庄上班的工薪阶层或是靠养老金为生的退休老人,但却有3户是来度周末的百万富翁,就是这3户人家的收入抬高了算术平均数。这样一来,几乎每个人都低于平均数,虽然这听起来像是笑话或者文学修辞,但却是事实。 这就是当你听到公司执行总裁宣称,在他的企业中员工的平均收入是多少时,你应该好好思考一下原因。如果这个数是中位数,你可以获得一些显而易见的信息:一半员工赚得比它多,一半比它少。但如果是均值(请相信我,如果没有确切指出它的种类时,多半是均值),它仅仅是所有者25000英镑的收入与全体低水平工人收入的平均数,则根本没有什么意义。“平均年收入为3800英镑”既隐瞒了1400英磅的低收入,又隐瞒了所有者以巨额薪金的形式抽取的利润。这类似于双人拉锯,现实情况越糟,看上去却越好,在一些公司的声明中也会采用这种方法。 让我们试着用个简单的例子来说明。假设你是某个小型企业的3个合伙人之一。这是丰收的一年。到了年底,你给企业的90个职工共发了99000英镑。你和合伙人每人各获得5500英镑的工资;最后还余下21000英镑,作为利润可供3人平分。你将如何说明这种情况呢?为了便于理解,你打算采用平均数的形式。既然所有的职工从事相同的工作,获得同样的收入,用均值还是中位数没有区别。 说明如下:职工的平均工资—1100英磅,所有者的平均工资及利润—12500英镑,看上去太不公平了,不是吗?让我们来试试另一种形式:从利润中拿出1500英镑以奖金的形式平分给3位合伙人。这一次将包括了所有者和职工的所有工资进行平均,不要忘记还是采用均值,结果变成:所有人员的平均工资或薪金—1403英镑,所有者平均利润—2000英镑,哈,看上去好多了吧。 虽然还能进一步改善,但这已经有了长足的进步,总额中只有低于6%的部分形成了利润。如果乐意,你还可以继续如法炮制。但不管怎样,现在的结果已经足以作为公布的内容,张贴在公告栏中,或者作为与职工谈判的依据。 因为简化,这个例子是十分粗糙的。它与以会计的名义所做的手脚相比,简直就是小儿科。从薪水微薄的打字员到领取八十万美元奖金的总裁,在这样一个等级森严的复杂公司中,所有事情都可用类似的方法进行掩盖。因此,当你看到某个平均收入时,首先问问:是什么的平均?包括了哪些人? 美国钢铁公司曾经指出:10年间该公司职工的平均周收入攀升了107%。确实如此,但是当你注意到早期的数据包括了更多的兼职员工时,奇妙的增长率会大打折扣。如果你某年只工作了半年,而第二年全年工作,你的收入毫无疑问会翻番,但这却并不意味着工资率的变动。 你也许曾在报纸上看到过:某年美国家庭的平均收入是6940美元。别太在意这个数字,除非你知道这个数字包括了哪些家庭,以及使用了哪种平均数。(甚至这是谁说的,他是如何获得该信息的以及这个数的准确性你都要知道。)上述数据来自于普查局(the Bureau of the Census)。如果手头有普查局的整篇报告,你将不费吹灰之力地弄清楚所需要的其他信息。这是个中位数,“家庭”是指两个或更多具有亲属关系的人住在一起所形成的“家庭”。如果再回过头读一下表中的数据,你还将发现这个数据建立在抽样基础之上,该调查以19/20的概率保证真实的数值会落在估计值加减71美元的范围之内。普查工作者掌握了足够的统计知识和足够的财力,如果没有特殊的企图,他们能够将抽样研究结果控制在较好的精度范围之内。但并不是所有的数据都出自这种严谨的环境,也不是所有的数据会附上关于数据精确度的任何说明。 同样,你会对《时代》杂志“编者的话”栏目中的某些项目表示怀疑。该杂志这样描述他们的新订户:“他们年龄的中位数是34岁,家庭平均年收入为7270美元。”早期关于“旧时代”读者的调查发现,“年龄的中位数是41岁、平均收入为9535美元”很自然的问题是:为什么两次谈到年龄时都指出采用了中位数,而关于收入却不明确平均数的类型。也许这里使用的是数值较大的均值,以达到利用高收入读者群吸引广告商的目的。 所以,当你看到某个平均收入时,首先问问:是什么的平均?包括了哪些人? 摘自《统计数字会说谎》