用“密集均值”计算居民平均收入
信息来源:项目部 发布日期:2017.08.16

每当平均收入公布,社会上就常会有人发出“怎么我的收入没那么高啊,这个平均收入准不准啊”之类的议论。虽然从统计数据的角度来说,个别样本的数值与样本总体的均值本来就无必然的大小关系,但如果很多人都有这种感觉的话,是否我们统计工作者应该考虑到群众的需求,寻求出一种与传统的平均收入计算方法不同、可以满足公众要求的新思路呢,毕竟,统计数据也是为社会公众服务的,应该从多数人的实际情况予以考虑。笔者近日思考出一个新的计算方法,或许可以算是一种尝试。

  一、如何理解个体收入与平均收入的关系

  首先应该肯定的一点是,个体收入与平均收入有差别,这是不足为怪的。平均收入是关乎全体样本的一个统计量,任何单个个体与其都没有必然的大小关系。某一个样本值小于或者大于平均值,都没有理由指责平均值这个概念或者算法有什么问题。有低于均值的样本,自然也有高于均值的样本。就收入而言,“你”的收入比平均收入低,并不是因为这个平均收入算得不对,而是另外有人收入比你高,将平均收入“拉升”上去了。

  那么,究竟应该如何理解个体收入与平均收入的关系呢?什么样的平均收入才算是代表了“我”的收入呢?通俗地讲,只要这个“平均收入”与个体的实际收入相差不大,就应该可以说,这样的平均收入就代表了该个体的实际收入。打个简单的比方:假设今年的居民平均收入是20000元,而某人的实际收入为19500元,那么此人就应该认为,他的收入差不多就是平均收入,而决不能因为实际收入还低于平均收入500元,就认为这个平均收入不准确。

  上面的论述阐明了单个个体与平均量之间的关系,而我们的目的是要找到可以代表“大家”水平的平均值。这样的平均值该如何取得呢?应该明确的是,期望一个统计均值与绝大部分个体的真实情况相符,除非所有个体的数值都很接近,否则不可能达到这一要求。同样,在实际生活中,也不可能找到一个“平均收入”,使得绝大多数甚至所有人都认为“这个数据很准确,与自己的收入很吻合”。所以,我们只能退而求其次,将探索的出发点定位为:寻求一个可以代表相对多数人实际情况的“平均收入”。

  二、密集均值概念的提出及计算方法

  上述“平均收入”所应符合的要求可以抽象为这样的数学语言表述:找到一个数值,使得收入在该数值正负一定范围内的样本数最多。其所代表实际含义为:当个体的收入与所公布的平均收入相差不超过一定范围时,可以认为该平均收入是可以代表其个体实际收入的。

  记样本总体为=(,,…,),为属于[,]的任意值,给定一个正值,表示总体中属于[-,+]的样本个数。若对任意属于[,]的整数,均有≥,那么称符合该条件的为样本的密集均值。

  这样计算出来的均值,可以确保样本总体中有相对最多的个体认为其个体值与均值较为接近,我们称:在误差的范围内,样本总体的密集均值为。当然有可能存在两个不同的值:,,均满足上述条件,那么则称,在误差的范围内,该总体存在两个密集均值和。

  实际操作中,可以选取[,]中的整数值,这样才具备可操作性。而值的选取,有以下几种不同的方法。

  1、这里计算的是平均收入,大致上可以认为,相差500元的差距可以忽略,算是在均值可接受范围,即选定为一个固定值500,然后按照前面模型中介绍的方法,最终计算出值。这个方法的优点是计算相对简单,缺点也很明显:值的选取随意性较强,且没有跟样本值本身联系起来,可以选500,也可以选200或者300等等,缺乏可靠性。

  2、仍是将定性为一个固定值,但要与样本产生联系,采取样本极差的一个百分值。考虑到极差数值通常较大,不妨取极差的1%,之后的计算过程同上。该方法虽然比第一个方法有所改进,但由于仍是采取的固定值,还是有所不妥。因为对于同一个值,收入较高的人群可能会觉得不算什么,可以忽略,但对收入较低的人群来讲,就可能称得上是一个不小的差距。

  3、将定义为一个与正相关的变量,即当较小时,也较小;较大时,也较大。这样与收入较低时居民对收入的差异较为敏感、收入较高时对收入的差异较为不敏感的客观事实相一致。不妨取=/10,表示当居民的实际收入与“平均收入”相差在10%以内时,认为自己的收入与“平均收入”差距不大,这个“平均收入”可以代表自己的收入。

  同样,在计算居民收入的密集均值时,也有可能会得到两个或两个以上的均值。考虑到公布“平均收入”时,尽量只存在唯一数值,不妨做进一步的处理:1、计算出这若干个密集均值的算术平均值。2、计算出步骤1中所得算术平均值正负范围内的样本个数。3、若步骤2所得到的样本个数与原先各密集均值正负范围内样本个数相同,那么就可以将各密集均值的算术平均值作为最终的“平均收入”,否则,就只能称居民收入的密集均值有若干个,分别为,,…。

  三、密集均值的数理意义

  1、数理意义

  密集均值的数理意义,可以形象地理解为:将样本空间中的每一个样本一一对应到数轴上的点,这些点中聚集程度最高或者说最为“密集”的那部分均值,就是密集均值。

  2、与算术平均数、众数、中位数的区别

  与算术平均数的区别:算术平均数是所有样本的均值,而密集均值是样本空间中最密集的那部分样本的均值。

  与众数的区别:众数是指出现频度最高那一个或若干个数值,而密集均值是符合特定要求的一部分数值的均值。

  与中位数的区别:中位数是指将数据按大小顺序排列后,居于数列中间位置的那个数据。而密集均值是指聚集程度最高的那部分数据的均值。

  算术平均数、中位数都具有唯一性,同一个样本空间只能有唯一一个算术平均数和中位数;密集均值可能存在一个或一个以上;众数则既可能有一个或一个以上,也有可能一个都不存在(当样本空间内各样本出现次数均相同时,称为众数不存在)。

  样本空间的众数,必然是样本空间内的某个样本值,换言之,众数同时也是样本空间内的样本;而算术平均数、中位数以及密集均值都只有在特定情况下,才有可能恰好是样本空间内的样本。

  四、以扬州市2012年城镇住户数据为例进行应用

  首先对城镇住户的基本数据进行必要的说明:城镇住户取自市区200户家庭,每一户的人均可支配收入是以该户总的可支配收入除以该户按月计算的年均人数,其中“按月计算的年均人数”是以全年各月的人数之和除以12,因此年均人数可能是非整数。在下面的计算中,将以户为单位的样本,折算为以人为单位的样本。比如,某户的人均可支配收入为,年均人数为,那么该户在以人为单位的样本中,记为个数值均为的样本。2012年市区以人为单位的样本共计588.5个。

  下面针对的不同取值方法,分别进行计算分析:

  1、取=500,计算得密集均值共计337个,分别为27432,27433,…,27768,样本户中落入上述各自范围的样本数均为36.75。取其算术平均值27600进行试算,发现落入其正负500范围内的样本数仍为36.75。因此,可以说,在500的误差范围内,2012年扬州市城市居民人均可支配收入的密集均值为27600元。

  与人均可支配收入的算术平均值28001相比,在密集均值500范围内的样本数占样本总数的比重为6.2%,在28001的500误差范围内样本数的比重为3.5%,前者比后者高2.7个百分点。也就是说,假设人们认为500元的误差可以忽略不计,那么采用密集均值作为“人均收入”,将会额外得到2.7%人群的认可。

  2、取=极差/100,计算得密集均值共计61个,分别为17772,17773,…,17832,样本户中落入上述各自范围的样本数均为54.8333。同样,试算上述密集均值的算术平均值17802,可知落入其极差的1%范围内的样本数仍为54.8333,。因此可以说,在1%极差范围内,2012年扬州市城市居民人均可支配收入的密集均值为17802元。

  与人均可支配收入的算术平均值28001相比,在密集均值1%范围内的样本数占样本总数的比重为9.3%, 在28001的1%误差范围内样本数的比重为6.6%,前者比后者高2.7个百分点。也就是说,假设人们认为极差的1%误差可以忽略不计,那么采用密集均值作为“人均收入”,将会额外得到2.7%人群的认可。

  3、取=10%,计算得密集均值共计169个,分别为25404,25405,…,25572,样本户中落入上述各自范围的样本数均为116.6667。同样,试算上述密集均值的算术平均值25488,可知落入其10%范围内的样本数仍为116.6667。因此可以说,在10%的误差范围内,2012年扬州市城市居民人均可支配收入的密集均值为25488元。

  与人均可支配收入的算术平均值28001相比,在密集均值10%范围内的样本数占样本总数的比重为19.8%,在28001的10%误差范围内样本数的比重为16.8%,前者比后者高3个百分点。也就是说,假设人们认为10%的误差可以忽略不计,那么采用密集均值作为“人均收入”,将会额外得到3%人群的认可。

  五、关于“密集均值”如何使用的建议

  从上述实例可以看到,相对于算术平均值而言,密集均值更易为个体所接受。当然,这并不意味着密集均值可以取代算术平均值。算术平均值有其自身的特点,比如它本身就是所有样本个体的一个函数表达式,与每一个样本都产生联系,是样本总体均值的无偏估计,所以算术平均值有其固有的优势。而密集均值,虽然每一个样本也都参与到其计算过程中,但毕竟没有一个固定的函数关系,有可能会丢失一部分样本信息。所以,这两种方法计算出来的“平均收入”各有作用,不能简单地选择一个,摈弃另一个。两者应同时使用,互相补充,以期能够向公众传达最为完整的信息。

 

上一条
下一条
Produced By 大汉网络 大汉版通发布系统