平均数、变异数的优缺点

数据资料具有集中性和离散性两个特点。集中性就像是大家向我靠拢,向我开炮。离散性自然是要远离中心这个雷区了。使用平均数作为集中性的度量,对离散性用变异数作为度量。

平均数一般分为算术平均数、中位数、众数和几何平均数。它们中以算术平均数最为常见,使用最为广泛,所以经常将算术平均数简称为平均数。但是假若数据中有极端值(极大或者极小)出现,那么算术平均数会受其影响的。当中位数和众数不易受到极端值的影响,但是都存在着数据利用不完全这一弊端。除此之外,众数还可能存在着多个众数或者无众数的情况。(样本数据中出现次数最多的样本值不唯一,或者所有样本值都只出现一次。)几何平均数由于其自身计算较为复杂,应用不是十分广泛,但大家要知道算术平均数大于等于其几何平均数这一性质。

对于变异数一般分为极差(也称全距)、四分位极差、方差、标准差和变异系数等。极差和四分卫极差都是一样的通病:利用数据不完全。除此之外,极差由于利用了数据中的极端值,只能粗略的估计数据波动范围。有很大的局限性。使用方差用来度量离散性最直接的缺点就是单位的不统一。标准差解决了上述问题,但是假若遇到需要比较的两个数据单位不一致时,譬如想比较身高和体重的离散性。即使标准差算出都是1,也不能说明身高和体重的离散性是一致的,因为1kg和1cm我们不能说是相等的。抑或遇到平均数大小不同,数量级不同时,譬如A是面粉,B是方便面,即使我们算出它们的标准差都是50g,但也不能说明面粉和方便面的离散程度是一致的。因为50g对于面粉来讲是小case,但是对于方便面,这可是大问题。所以到了变异系数的出场,不带单位的家伙,可以尽情蹂躏!

相关文章:

One Trackback

  1. 十二月 6, 2008 : 协方差 : 麦思客

Post a Comment

Your email is never published nor shared. Required fields are marked *

*

*

Type your comment out: