“清华大学2008届本科生毕业半年后,平均月收入为5339元,居全国第一。”看了国内某机构推出的高校薪资排行榜,你或许会感叹,清华学生干得真不赖啊,尤其当他们的“老对手”北大毕业生以4620元位居全国第4的时候。
但问题接踵而来。这个数字何以精确如斯?究竟有多少清华学生收到过调查问卷?问卷的回收率和有效率是多少?拒绝回答的学生是因为没有赚到足以炫耀的薪水吗?一年前的调查说,清华2007届本科生月收入为5565元,为什么在“全国人民收入不断增长”的大好形势下,“倒霉的2008届”会平白无故少挣226元?实际上,除了“5339元”这个数字之外,你得不到任何交代。
一个用事实说话的社会是让人向往的,但有时貌似精确的统计数字却会被利用,成为迷惑他人的工具。美国统计学家达莱尔·哈夫早就著书提醒世人:《统计数字会撒谎》。他建议,在看到统计数字后,人们首先要问自己5个问题:“谁说的”,”他是如何知道的”,“遗漏了什么”,“是否有人偷换了概念”,“这个资料有意义吗”。
50多年后这本“数据打假手册”才有了中文版,但仍有很强的现实意义。比如带着第一个问题去追问高校薪资排行榜,你会发现,尽管该机构自称“以推动中国教育为己任”,但事实上他们是在销售高考志愿填报咨询系统和大学生就业指南。
商业广告里的数字是不太靠谱的,关于这点人们有共识。比如某牙膏“能使蛀牙减少23%”,某洗发水“能让秀发10倍坚韧”,某香皂“含有抑菌成分,能有效去除99%与皮肤接触的细菌”,很少有人真的相信这些数字,就像大多数中国男人不认可“90%以上的男同胞受到肾亏、前列腺疾病或性功能障的困扰”一样。
问题是,权威部门公布的统计数字也并非无懈可击。2009年7月,国家统计局发布,2009年上半年中国城镇单位在岗职工平均工资为14638元,同比增长12.9%。其后就有众多网民在网上晒工资,指出统计数据与自己的实际收入增长不符。
参照达莱尔·哈夫的书就会发现,造成“工资被增长”的原因有二。一是大多数低收入者没有被纳入统计的范围内。根据现行统计制度,城乡职工约4.1亿人,而纳入上述统计范围的职工只有1.1亿人。
实际上,即使统计覆盖了所有劳动者,如果按照现行测量标准,也很难得到反映实际情况的平均数。提到平均数,多数人会认为就是N个数字相加然后除以N。“平均数”实际上包含均值、中位数和众数3种。中位数就是把所有数字由小到大排列取最中间的那个数,众数就是在所有数字当中出现最频繁的那个数。
举个例子,10个小朋友分苹果,分别拿到的个数是1、2、3、4、5、5、10、10、10、100,那么平均每个小朋友分到几个?按照均值的算法是15个,那么前9个小朋友必然会哭着说自己都没达到这个水平。如果取中位数是5个,取众数是10个,两者都更趋近真实的平均水平。问题是,在这三个平均数中,均值总是能够取得最大数字的那个平均数,所以很多统计都爱用这个。只是贫富差距越大,其结果越不能代表真实的工资水平。
在哈夫笔下,统计数据并非总是面目可憎,有时也让人莞尔。比如英国劳工部对6000户有代表性的英国家庭做调查后发现,5岁以上的英国男子在冬天平均每周洗澡1.7次,夏天为2.1次。而同等年龄的英国女子的相应数据为冬天1.5次,夏天2.0次。据此,劳工部得出来个这样的结论——“英国的他比她更爱洗澡”。
还有,当美国约翰斯·霍普金斯大学开始接收女学生时,一个不赞成异性同校的学者发布了一个惊人的消息:霍普金斯大学1/3的女学生嫁给了老师。其原始数据更清楚地描绘了事实:总共只有3个女同学被录取,其中1人嫁给了老师。
其实哈夫写这本书的目的也只是想提醒人们:如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。